【首页】 中国民俗学会最新公告: ·UNESCO ‖ 今天,我们庆祝首个国际非物质文化遗产日   ·第三届民俗学、民间文学全国高校骨干教师高级研修班在内蒙古大学成功举办   ·第三届民俗学民间文学全国高校骨干教师高级研修班在内蒙古大学开班  
   研究论文
   专著题录
   田野报告
   访谈·笔谈·座谈
   学者评介
   书评文萃
   译著译文
   民俗影像
   平行学科
   民俗学刊物
《民俗研究》
《民族艺术》
《民间文化论坛》
《民族文学研究》
《文化遗产》
《中国民俗文摘》
《中原文化研究》
《艺术与民俗》
《遗产》
   民俗学论文要目索引
   研究综述

访谈·笔谈·座谈

首页民俗学文库访谈·笔谈·座谈

笔谈:信息技术与中国传统学术研究
  作者:郑永晓 李铎 罗凤珠 | 中国民俗学网   发布日期:2010-01-02 | 点击数:16702
 

从检索到分析
——计算机知识服务的时代

李铎 (北京大学中文系)

 

  检索是使用数字化资源最基本的功能。检索的原理是,用户输入一字符串,计算机在数字化资源(如网页、WORD文文件、数据库等等)中以匹配的方式来搜索,如果匹配上,就可以显示出来,为我们的工作提供了极大的便利。但是,问题也随之而来,比如,我输入的是简体,计算机能否找到繁体甚至异体、通假字。从理论上讲是不可以的,但是很多程序都能做到这一点,这就要求程序员先做个对照表放到程序的内部,计算机读到一个字,就先到这个表中查,将该字可能有的繁简、异体、异写、通假的形式也都作为它搜索的对象,每个都查一遍对计算机来说不算什么难事,计算机搜一个字,是以毫秒为单位的,一个六百万字的文件,如二十册的《资治通鉴》,并列查十几个字,也就是搜上十几遍,一般不会超过一秒钟。如果这表的质量高,匹配度就高,像《四库全书》、《四部丛刊》这些定位在为学者服务的系统,都做了比较精的表。像百度、谷歌等网络搜索引擎,为了照顾速度,表就很简单,往往会在匹配方面失真。

  进一步,我们除了要搜索明确单一的字符串,还有可能要搜索带有搭配关系的,如:我想找“李白”,同页中同时还有“杜甫”的,复杂一点的,我搜索“李白”和“杜甫”或“王维”而不要含有“白居易”字样的数据,这也是比较容易实现的,需要加上逻辑运算符,即“AND、OR、NOT”等。从并列的检索来看,我们仍以“李白AND杜甫”为例,计算机等于是先查一遍“李白”,在含有“李白”的语料中再找“杜甫”,筛选出来就是用户所需要的东西;如果是“李白OR杜甫”,则是先从全部文献中检一遍“李白”,再从全部文献中检一遍“杜甫”,两者都交给你;如果是“李白NOT杜甫”,则是先检一遍“李白”,从检到“李白”的语料中检“杜甫”,检到的语料扔掉,只保留没有“杜甫”的。而这个过程是计算机自己的事,用户看不到,会认为该检索非常复杂。所以不论加不加逻辑运算符,不论加多少个逻辑运算符,不论要不要繁简异体通假匹配,这都是“一一对应”的检索,是最基本的检索。过去计算机界将加有逻辑运算符的检索称为“高级检索”,其实并没有高级到哪去,无非是多检几遍而已。

  再进一步,我并没有具体的字符串,而是想让计算机找到或者标记出相应的语料。如:我们读《左传》时,觉得里面引用《诗经》的句子不少,我想整体看一看。看看引了多少处,风、雅、颂分别占多大比例。这就复杂得多了,可是,复杂的仅是检索者的准备工作,而对计算机而言,仍然是最基本的检索。检索者需要先按照一定的格式整理好一批语料,即《诗经》的文本,还要包括异文,然后交给计算机,计算机逐句读取,每句就是一个字符串,并在《左传》中扫描,匹配的标记出来。穷尽后,再读下一句。我们还可以再配上“繁简异体字表”等等。很快,计算机会告诉你结果,《左传》中共引用了多少句诗经,不过像“日有食之”算不算引诗,你当然可以自己定。

  接下来,我们又向计算机提出更高的要求,如《全宋诗》有二十五万余首,我想知道,其中有多少是格律诗,格律诗中,有多少七言律诗,七言律诗中又有多少首句平起入平韵的诗。当然,计算机程序员告诉你,这实现起来并不难,你只要将这些诗全都标记出来就行了,这话听起来真有点像“给我个支点,我会撬起地球”。问题是,我不知道支点,也不知道哪些诗是格律诗。《全宋诗》在整理的时候并没有标记哪些是格律诗,哪些是古体诗。都计算机时代了,能不能让计算机标记?可是计算机不知道什么样的诗是格律诗,这我可以告诉它,如首句平起入平韵的七言诗首句是“平平仄仄仄平平”,可是计算机还要知道哪些是平声字,哪些是仄声字,这问题也简单,做个表,将《广韵》、《佩文韵府》等相关韵书列进去。第一句定了,第二句就应当是“仄仄平平仄仄平”,接下来根据粘对的规律,一句句排下来。那么,我现在给计算机的已经不是“字符串”了,它也不是按照“一一对应”的规则来搜索。我给它的是一个模型,计算机根据这模型来找“模式匹配”的项。与该模式一致的,就是格律诗。需要多少个模型,穷尽全部格律形式,也不过二十八种。那就制作二十八种模型,当然要考虑到拗救,考虑到一三五不论,考虑到虽然二四六分明,但是诗人偶尔会有那么一两个字实在是照顾不到的情况等。最难解决的是多音字问题,如“相”, “相思”中是平声,而“宰相”中是仄声。等等,各种复杂因素都考虑到,而且也都做出了相应的解决方案。计算机便可以自动标记出《全宋诗》中十七万二千二百三十四首格律诗。

  这种检索已经不是一一对应的检索,一一对应,就是“点对点”,你输入的一个“字”(字符串),就是一个点,计算机根据这个点来搜索,找到与之相对应的点来。复杂的加了逻辑运算的检索,只不过需要多检索几次不同的点。而我们现在标记格律诗,计算机不是按照我输入的“字”来检索的,而且按照我的指令,不用字符串的匹配形式,用类似“膜”的模型来过滤。每一种格律诗模型,就像是一层膜,用这个模型去和语料匹配,能通过的,是格律诗,否则是古体诗。所以,它是“面对面”的检索。

  这二十八种静态的“膜”是我们事先制作好的,交给计算机,它依次用之过滤。可是有些诗,诗的作者在诗题上明确注明是什么什么“歌”什么什么“行”什么什么“引”,计算机可以不管它,只要通过“膜”的,就是格律诗,不管你诗人自己怎么说。当然,这个规则也可以改,无非再加一个条件:凡诗题尾为“歌、行、引”的或全题与古乐府诗题相同的,均不做格律诗对待。因为我更相信计算机而不相信诗人,所以就没有加这个限制。

  《全宋诗》的编纂工程浩大,历时多年。同一首诗,在不同的册卷、不同的诗人名下再出现(学术界称之为“重出”)的现象难免,有的是古人遗留下来的错误,在诗人甲的集子里有,在诗人乙的集子又出现,甚至在诗人丙的集子里还有。当然也有编辑失误的地方,如欧阳修的《送谢学士归阙》(《全宋诗》第六册,3670页),一百多页后,以《送学士三丈》为题再次出现。再者就是,有署名诗人的诗作与“无名氏”的重出,如第五十五册高翥的《看弄潮回》,在第七一册以《看弄潮》为题挂在无名氏的名下。


继续浏览:1 | 2 | 3 | 4 | 5 | 6 |

  文章来源:中国文学网
【本文责编:思玮】

上一条: ·刘魁立先生访谈录
下一条: ·朝戈金:坚持多样性才能持久发展
   相关链接
·[王艳]媒介融合视域下的口头传统研究·[吉国秀 王明月]信息技术、职业群体与社会变迁:一项基于 IT 笑话的跨学科研究
·[吉国秀 王明月 杨宏戟]信息技术如何进入日常生活:一个知识扩散的视角·[吉国秀 王明月]信息技术、职业群体与社会变迁
·接续传统 关注现实 面向世界

公告栏
在线投稿
民俗学论坛
民俗学博客
入会申请
RSS订阅

民俗学论坛民俗学博客
注册 帮助 咨询 登录

学会机构合作网站友情链接版权与免责申明网上民俗学会员中心学会会员 会费缴纳2024年会专区移动端本网导航旧版回顾
主办:中国民俗学会  China Folklore Society (CFS) Copyright © 2003-2024 All Rights Reserved 版权所有
地址:北京朝阳门外大街141号 邮编:100020
联系方式: 学会秘书处 办公时间:每周一或周二上午10:30—下午4:30   投稿邮箱   会员部   入会申请
京ICP备14046869号-1    京公网安备11010602201293       技术支持:中研网