【首页】 中国民俗学会最新公告: ·UNESCO ‖ 今天,我们庆祝首个国际非物质文化遗产日   ·第三届民俗学、民间文学全国高校骨干教师高级研修班在内蒙古大学成功举办   ·第三届民俗学民间文学全国高校骨干教师高级研修班在内蒙古大学开班  
   研究论文
   专著题录
   田野报告
   访谈·笔谈·座谈
   学者评介
   书评文萃
   译著译文
   民俗影像
   平行学科
   民俗学刊物
《民俗研究》
《民族艺术》
《民间文化论坛》
《民族文学研究》
《文化遗产》
《中国民俗文摘》
《中原文化研究》
《艺术与民俗》
《遗产》
   民俗学论文要目索引
   研究综述

访谈·笔谈·座谈

首页民俗学文库访谈·笔谈·座谈

笔谈:信息技术与中国传统学术研究
  作者:郑永晓 李铎 罗凤珠 | 中国民俗学网   发布日期:2010-01-02 | 点击数:16699
 

  不论是古人遗留下来的错,还是当代因为工程大而当时又没有借助计算机手段所造成的重出,这些重出已经出现,像苏轼、欧阳修、王安石、黄庭坚等著名诗人的诗作与他人重出均在四十首以上。稍不留心,就会张冠李戴。所以《全宋诗》推出后,不少人开始做清理工作,写了一篇又一篇的查到“重出诗”的文章。众多学者花多年功夫查到了二百多首重出诗,每查到一首,都是一件当时看来功德无量的事。

  计算机能否将重出的全都标记出来?程序员会说,非常容易,就用最简单的“一一对应”检索就可以了,以第一首诗为“字符串”,只不过是长了点的字符串,然后对全部的诗进行检索。可问题是这些重出的诗,其“字符串”并不是完全一样的,总会有一两个字不一样,这时,你建的繁简字表、异体字表、通假字表都没有用武之地了。因为不一致的地方并不是繁简字、异体字、通假字问题,而是非常不确定的。如苏轼诗《入馆》:“黄省文书分道山,静传钟鼓建章闲。天边玉树西风起,知有新秋到世间。”(《全宋诗》第十四册,第9135页)也出现在张耒的名下《秋日有作寓直散骑舍》:“黄省文书分道山,静传钟鼓建章闲。天边玉树西风起,知有清秋到世间。” (《全宋诗》第二十册,第13275页)最后一句,一作“新秋”一作“清秋”。

  这就要使用“膜”的检索方式,而这膜是动态的,取任一首诗,计算其相关可计算的部分,建成数字模型,用“模式匹配”的方式去过滤全部其他的诗作,并且可以设定一定的容错值。两个“膜”的相似度达到一定的值后,就可以将其标记为重出诗。这样,计算机就可以在一两分钟内,全部标记出《全宋诗》近五千首相互重出的诗。

  至此,计算机仍然是检索时代的产物,不过是真正的高级检索,是用“模型”代替“字符串”的检索。

  完成了《全宋诗分析系统》,我们可以用它来做很多的学术研究。如宋代诗人中谁用“酒”字最多,其实不用计算机我们都可以知道是谁,陆游,因为他的诗最多,自然几乎所有的常见字,都是他用的最多。如果以比率来算,去除仅存一两首的,应是敖陶孙。而我们还会遇到一个严重的问题,也就是说,这些诗人用“酒”字,是真正意义上的“酒”吗,是不是地名中的“酒”,如陆游的“张掖酒泉开郡县”中的酒?而他们没有用酒,却是写饮酒的诗,如用了“杜康”、“佳酿”、“琼浆”等等。

  因此,计算机为学术研究提供服务,需要更为复杂的检索。为了检索格律诗,我建了格律诗的数字模型,为了检索重出诗,我建了以诗为单位的数学计算模型。为了检索和研究宋代诗人和酒的关系,和酒文化的关系,我们需要做什么呢?依然是建设模型。

  比如,“酒”模型,我们可以考虑把各种酒的称法,各种酒的品牌都归到“酒”字,这“酒”字的表中,有酒的别名,有酒的牌子,有酒的产地,有酒的生产厂家。那么,当我分析查找酒的时候,并不一定要用酒字,而包括了可以代指酒的所有项。这看起来和繁简字、异体字、通假字表差不多。但字表是封闭的,这酒模型则是开放的,其中的任何信息点都可以向外链接出去。它本身也是可以向上比如“饮料”链接。如果查询分析“饮料”,就会包括“酒”,也包括“茶”,再向每“类”的子系统中包括“杜康”“佳酿”“毛尖”“龙井”等概念扩展。如果“饮料”表的上层是“食品”,与之并列的东西就更多。这时,可以要求从文献中提取与“食品”相关的段落或句子,并不是要找”食品”二字,而是包括酒茶麦米盐等等各种可以吃的东西。

  这样的关联,类似一个“概念体系”,因为“概念”是从具体物抽象出来,是思维推理的基础,是最基本的思维单元,20世纪90年代,计算机理论家们便借用了一个哲学词,叫ONTOLOGY,我们就顺着哲学词汇的翻译方法,称之为“本体”。将酒、茶、饮料、食品等等全都装进去的巨型表,我们称之为“本体库”。

  建设本体库,就是建设模型库。本体是最小的模型。为了让计算机能够为我们提供更广泛的学术支持,我们就要建设的各种各样的本体。如“人物本体”,每个人物的本体,基本上要有姓、名、字、号、谥号和各种各样的别名,生卒年,籍贯、远祖和为官地,出身,父母兄弟妻子儿女,著作等等。每个具体的本体,我们称之为“本体元”,本体元组合成本体库,而这库因为是开放的,任何一个项又可以跨到别的库去。如出生地、为官地,就要跨到“地名本体库”中去。他的著作则跨到“文献本体库”中,文献本体中的文献藏地,又联接到地名本体上。这样,我们在对比较大的文献量进行分析时,会找到非一般检索可以得的数据。如面对《资治通鉴》,我们可以要求计算机报告唐代皇族世系关系,这样,以李渊为根的一个大型树状结构就会自动生成,他的儿子们、儿子们的儿子们,形成枝叶,不仅如此,再由母系“戚”的关系联络到李氏以外的人物,一个唐代社会结构图也会由此而产生。如果我们再扩充文献量,放进正史、墓志、地方志、家谱、年谱、笔记等等文献,那么就会生成家族谱系、部族迁徙等图表,可以生成地理环境与文化、经济、军事等关系的各种各样的详细报告。可以从多个学术面、以多种视角来重新审视中国历史,如同在读一位史学界的超级大师的著作。

  讲到这里,我们发现,计算机不是在为我们检索了,而是自己在做学问,做那种非常大,而非一般人力可以做的学问。似乎它不再是被动应答的仆人,而变成了主动提供知识服务的老师。它所提供的知识服务又是人所无法完成的,它有着超强记忆,永不会忘记任何一个细节,对它所拥有的文献采用穷尽式的搜罗,不会有任何遗漏。

  计算机在人文学科领域正是这样发展的。从检索时代发展到分析时代,由被动的应答到提供知识服务。这必将会对我们的传统文化教育、学术研究产生颠覆性的影响。


继续浏览:1 | 2 | 3 | 4 | 5 | 6 |

  文章来源:中国文学网
【本文责编:思玮】

上一条: ·刘魁立先生访谈录
下一条: ·朝戈金:坚持多样性才能持久发展
   相关链接
·[王艳]媒介融合视域下的口头传统研究·[吉国秀 王明月]信息技术、职业群体与社会变迁:一项基于 IT 笑话的跨学科研究
·[吉国秀 王明月 杨宏戟]信息技术如何进入日常生活:一个知识扩散的视角·[吉国秀 王明月]信息技术、职业群体与社会变迁
·接续传统 关注现实 面向世界

公告栏
在线投稿
民俗学论坛
民俗学博客
入会申请
RSS订阅

民俗学论坛民俗学博客
注册 帮助 咨询 登录

学会机构合作网站友情链接版权与免责申明网上民俗学会员中心学会会员 会费缴纳2024年会专区移动端本网导航旧版回顾
主办:中国民俗学会  China Folklore Society (CFS) Copyright © 2003-2024 All Rights Reserved 版权所有
地址:北京朝阳门外大街141号 邮编:100020
联系方式: 学会秘书处 办公时间:每周一或周二上午10:30—下午4:30   投稿邮箱   会员部   入会申请
京ICP备14046869号-1    京公网安备11010602201293       技术支持:中研网