引信息的“术”入文学的“心”
——谈情感计算和语义研究在文史领域的应用
罗凤珠(台湾元智大学中文系)
我们常羡慕历代的学者们因为广读群书,博闻强记,而能在治学过程中旁征博引、触类旁通。计算机强大的记忆能力及快速的搜寻检索、分析统计能力,可以弥补人脑记忆与搜寻能力的不足,具备了比人脑更强的“广读群书,博闻强记”能力。但是,如果计算机只能分辨字形的形符,无法解读字词含义的意符。不能理解语义,不具有思考能力和人的认知、感知能力,不具备人的知识体系,则其所检索、统计的也仅仅是文字的字形,而不能涉及知识的内涵。从这个意义上说,机器在“旁征博引”与“触类旁通”等方面的能力仍然比不上人脑。
1987年,笔者应《国文天地》编辑的邀请,以《探一探文史数据自动化的路》[1]为题,访问信息科学领域张仲陶教授,文史领域周何教授、毛汉光教授、王邦雄教授、王熙元教授等五位学者,从信息科学及经史子集不同领域的角度,提出他们对文史古籍数字化的看法,并从中探索发展的方向。张仲陶教授提出:“不要问计算机能做什么?而是问你要计算机做什么?”的看法,主张由文史界负责提出需要,由信息界负责满足需要:“计算机做得比人好的,交给计算机做,人去作计算机还做不到的事。”周何教授认为:“计算机是很呆板的东西,但怎样使他具有高层次的功能,帮助人脑体会,这是我所期望的。”毛汉光教授参与第一期史籍自动化计划,负责《食货志》数据分析、规划、系统分析,比其他几位教授,多了实际参与文史数据数字化的实务经验,毛教授说:“就个人经验言,在文史自动化的过程中,成败的关键在文史界,不在计算机界。依我的经验,个人想到的,只要分析出来,计算机都可以做到。所以文史自动化成败的关键在文史界,不在计算机界。”王邦雄教授也认为:“文史自动化不能失去人的主导地位。计算机毕竟不是人,无法做创发性的工作。”王熙元教授认为:“研究工作最重要的是资料的运用,将研究数据经过分析、整理、归纳,分门别类建立数据库,才能符合文史研究的需要。”
写这篇访问稿时,是笔者第一次涉入文史自动化的议题,当时只会使用计算机的输入功能,无法完全理解五位学者所提出的观点。当时距离有关研究机构1984年7月开始的“史籍自动化计划”不到三年,除了参与该计划的张、毛二位教授之外,其余三位教授未曾使用过数字数据库,也不会用计算机。汇整五位学者所提出的观点,有三项共同处,其一为:计算机不能取代人脑;其二为:引用计算机节省处理数据的时间,人可以做更多思考性、创发性的工作;其三为:古籍数字化成败的关键在文史学界,不在计算机学界,需要由文史学界提出需要,计算机学界满足需要,二者的通力合作才是古籍数字化成功的关键。而今时隔22年,张仲陶、周何、王熙元三位教授均已作古多年,他们所提出来的观点,仍然是文史学界与信息学界努力的方向。
1992年,笔者开始引用多媒体技术建立单机版红楼梦数据库,1993年改为网络版,接着建立网络版全唐诗数据库,正式跨入文史自动化研究的路。1996年在元智大学讲授诗词课程,每每苦于诗词习作批改的负担,突然体会到张仲陶教授所说“计算机做得比人好的,交给计算机做,人去作计算机还做不到的事。”今人作诗填词最大的困难是无法熟记诗词格律谱以及平仄声调、韵目韵字,而这些都是固定的,正是计算机可以做得比人好的部分,于是申请经费,开发诗词格律自动检测索引教学系统。1997年8月赴北京大学访问,得有机会持此系统向袁行霈教授请教,袁教授问我,这个系统能将用错的字改成对的,能不能将用得不好的字改得更好?袁教授当头棒喝,并给我很多指导。诚如袁教授所说的,这个系统能将用错的字改成对的字(完全符合平仄押韵),但是不但不能改成语义情境更好的字,甚至于在作自动检测时,对于一首平仄格律完全正确,但是文句语义全然不通的作品束手无策,关键在于计算机不具有理解语义的能力,更不具有思考、感发的能力,甚至于面对多音字的平仄判断能力都没有,而人脑具备这些能力。
如果让计算机具备理解语义的能力,就必须让计算机的运算更接近人脑的思维过程,需要建立符合人类知识体系的语义概念数据库,使计算机初步具备人的知识概念体系(Ontology)。历代学者为了研究的方便,编纂很多具有索引功能的类书,以方便研究者搜寻资料。1945年麻省理工学院副校长Vannevar Bush认为按字母或笔划数字排列的索引,只能一层一层往下寻找,不符合人类大脑以思维联想寻找数据的方式,因此构思着建立一个能以联想代替索引,能机械化选择数据的个人活页夹和图书馆机器,Bush将这个机器命名为Memex,期待在这个机器里可以储存所有的文献资料,检索时能如同人类的思维逻辑,建立知识连结的轨迹以进行联想索引,需要引用时,所有的资料都可以随意检索出来,并且可以快速的找到另一个相关的数据,也可以二个条件同时并行检索。Bush将自己的构想写成“As We May Think”一文发表,对信息科学的发展影响深远,他也因此被尊为“信息科学之父”。
Bush尝试要解决的便是以计算机帮助及代替人脑做某些事。1956年计算机与人脑比较的议题开始受到关注,美籍匈牙利科学家John von Neumann 应耶鲁大学邀请演讲,演讲的主题是计算机与人脑,并与合作伙伴开始研究建构一个与活脑极为相似的人造机器的可能性,但是由于对“人脑的语言”(language of the human brain)还是很不清楚,以致于并未成功。1970年代美国哲学家弗德(J。 Fodor)提出了“思想语言的假设”(Hypothesis of Language of Thought),引起广泛的讨论。翻译《计算机与人脑》一书的译者蔡耀明在译者序文《计算机科学的瞻前顾后》指出:“人脑(心智)的语言到底是如何,仍是未定之数。在方兴未艾的认知科学,以结合哲学、语言学、认知心理学、脑神经科学、人工智能等跨学科共同研究的努力下,相信总有一天会解开人类心智的奥秘,届时要实现以人类心智为模型的计算机,就不再是难事了。”[2]
在现代汉语方面,中文词语的语义分类研究成果,纸本文献以梅家驹主编,上海辞书出版社出版的《同义词词林》最具代表性,收录词汇五万七千二百三十五笔,将词义分为十二大类,九十五中类,一千四百二十八小类,三千九百二十五词群。电子本文献方面有董振东先生于1988年创建的知网(HowNet Knowledge atabase),2003年陈克健教授与董振东先生展开建构繁体字知网的合作计划,建立“概念网”,收录概念词六万零四百八十二笔。
继续浏览:1 | 2 | 3 | 4 | 5 | 6 |
文章来源:中国文学网 【本文责编:思玮】
|