检索是使用数字化资源最基本的功能。检索的原理是，用户输入一字符串，计算机在数字化资源(如网页、WORD文文件、数据库等等)中以匹配的方式来搜索，如果匹配上，就可以显示出来，为我们的工作提供了极大的便利。但是，问题也随之而来，比如，我输入的是简体，计算机能否找到繁体甚至异体、通假字。从理论上讲是不可以的，但是很多程序都能做到这一点，这就要求程序员先做个对照表放到程序的内部，计算机读到一个字，就先到这个表中查，将该字可能有的繁简、异体、异写、通假的形式也都作为它搜索的对象，每个都查一遍对计算机来说不算什么难事，计算机搜一个字，是以毫秒为单位的，一个六百万字的文件，如二十册的《资治通鉴》，并列查十几个字，也就是搜上十几遍，一般不会超过一秒钟。如果这表的质量高，匹配度就高，像《四库全书》、《四部丛刊》这些定位在为学者服务的系统，都做了比较精的表。像百度、谷歌等网络搜索引擎，为了照顾速度，表就很简单，往往会在匹配方面失真。

　　进一步，我们除了要搜索明确单一的字符串，还有可能要搜索带有搭配关系的，如：我想找“李白”，同页中同时还有“杜甫”的，复杂一点的，我搜索“李白”和“杜甫”或“王维”而不要含有“白居易”字样的数据，这也是比较容易实现的，需要加上逻辑运算符，即“AND、OR、NOT”等。从并列的检索来看，我们仍以“李白AND杜甫”为例，计算机等于是先查一遍“李白”，在含有“李白”的语料中再找“杜甫”，筛选出来就是用户所需要的东西；如果是“李白OR杜甫”，则是先从全部文献中检一遍“李白”，再从全部文献中检一遍“杜甫”，两者都交给你；如果是“李白NOT杜甫”，则是先检一遍“李白”，从检到“李白”的语料中检“杜甫”，检到的语料扔掉，只保留没有“杜甫”的。而这个过程是计算机自己的事，用户看不到，会认为该检索非常复杂。所以不论加不加逻辑运算符，不论加多少个逻辑运算符，不论要不要繁简异体通假匹配，这都是“一一对应”的检索，是最基本的检索。过去计算机界将加有逻辑运算符的检索称为“高级检索”，其实并没有高级到哪去，无非是多检几遍而已。

　　再进一步，我并没有具体的字符串，而是想让计算机找到或者标记出相应的语料。如：我们读《左传》时，觉得里面引用《诗经》的句子不少，我想整体看一看。看看引了多少处，风、雅、颂分别占多大比例。这就复杂得多了，可是，复杂的仅是检索者的准备工作，而对计算机而言，仍然是最基本的检索。检索者需要先按照一定的格式整理好一批语料，即《诗经》的文本，还要包括异文，然后交给计算机，计算机逐句读取，每句就是一个字符串，并在《左传》中扫描，匹配的标记出来。穷尽后，再读下一句。我们还可以再配上“繁简异体字表”等等。很快，计算机会告诉你结果，《左传》中共引用了多少句诗经，不过像“日有食之”算不算引诗，你当然可以自己定。

　　接下来，我们又向计算机提出更高的要求，如《全宋诗》有二十五万余首，我想知道，其中有多少是格律诗，格律诗中，有多少七言律诗，七言律诗中又有多少首句平起入平韵的诗。当然，计算机程序员告诉你，这实现起来并不难，你只要将这些诗全都标记出来就行了，这话听起来真有点像“给我个支点，我会撬起地球”。问题是，我不知道支点，也不知道哪些诗是格律诗。《全宋诗》在整理的时候并没有标记哪些是格律诗，哪些是古体诗。都计算机时代了，能不能让计算机标记?可是计算机不知道什么样的诗是格律诗，这我可以告诉它，如首句平起入平韵的七言诗首句是“平平仄仄仄平平”，可是计算机还要知道哪些是平声字，哪些是仄声字，这问题也简单，做个表，将《广韵》、《佩文韵府》等相关韵书列进去。第一句定了，第二句就应当是“仄仄平平仄仄平”，接下来根据粘对的规律，一句句排下来。那么，我现在给计算机的已经不是“字符串”了，它也不是按照“一一对应”的规则来搜索。我给它的是一个模型，计算机根据这模型来找“模式匹配”的项。与该模式一致的，就是格律诗。需要多少个模型，穷尽全部格律形式，也不过二十八种。那就制作二十八种模型，当然要考虑到拗救，考虑到一三五不论，考虑到虽然二四六分明，但是诗人偶尔会有那么一两个字实在是照顾不到的情况等。最难解决的是多音字问题，如“相”， “相思”中是平声，而“宰相”中是仄声。等等，各种复杂因素都考虑到，而且也都做出了相应的解决方案。计算机便可以自动标记出《全宋诗》中十七万二千二百三十四首格律诗。

　　这种检索已经不是一一对应的检索，一一对应，就是“点对点”，你输入的一个“字”(字符串)，就是一个点，计算机根据这个点来搜索，找到与之相对应的点来。复杂的加了逻辑运算的检索，只不过需要多检索几次不同的点。而我们现在标记格律诗，计算机不是按照我输入的“字”来检索的，而且按照我的指令，不用字符串的匹配形式，用类似“膜”的模型来过滤。每一种格律诗模型，就像是一层膜，用这个模型去和语料匹配，能通过的，是格律诗，否则是古体诗。所以，它是“面对面”的检索。

　　这二十八种静态的“膜”是我们事先制作好的，交给计算机，它依次用之过滤。可是有些诗，诗的作者在诗题上明确注明是什么什么“歌”什么什么“行”什么什么“引”，计算机可以不管它，只要通过“膜”的，就是格律诗，不管你诗人自己怎么说。当然，这个规则也可以改，无非再加一个条件：凡诗题尾为“歌、行、引”的或全题与古乐府诗题相同的，均不做格律诗对待。因为我更相信计算机而不相信诗人，所以就没有加这个限制。

　　《全宋诗》的编纂工程浩大，历时多年。同一首诗，在不同的册卷、不同的诗人名下再出现(学术界称之为“重出”)的现象难免，有的是古人遗留下来的错误，在诗人甲的集子里有，在诗人乙的集子又出现，甚至在诗人丙的集子里还有。当然也有编辑失误的地方，如欧阳修的《送谢学士归阙》(《全宋诗》第六册，3670页)，一百多页后，以《送学士三丈》为题再次出现。再者就是，有署名诗人的诗作与“无名氏”的重出，如第五十五册高翥的《看弄潮回》，在第七一册以《看弄潮》为题挂在无名氏的名下。

继续浏览：1 | 2 | 3 | 4 | 5 | 6 |

文章来源：中国文学网
【本文责编：思玮】

上一条： ·刘魁立先生访谈录

下一条： ·朝戈金：坚持多样性才能持久发展

相关链接

·[王艳]媒介融合视域下的口头传统研究	·[吉国秀王明月]信息技术、职业群体与社会变迁：一项基于 IT 笑话的跨学科研究

·[吉国秀王明月杨宏戟]信息技术如何进入日常生活：一个知识扩散的视角	·[吉国秀王明月]信息技术、职业群体与社会变迁

·接续传统关注现实面向世界