【编者按】在信息技术日益普及和发达的时代,计算机具有很强的检索功能已人所共知并普遍加以利用,但是,计算机还能如何深度开发,进一步为我们传统学术研究服务,依然为学术界广泛关注。为此,本刊特约几位专家,围绕这些问题发表高见,以飨读者。
技术与心智的互补
——建立在计算机检索基础之上的古典文学研究
郑永晓 (中国社会科学院文学研究所)
陈寅恪先生在《王静安先生遗书序》中,归纳王国维的治学方法有三:“一曰取地下之实物与纸上之遗文互相释证”;“二曰取异族之故书与吾国之旧籍互相补证”;“三曰取外来之观念与固有之材料互相参证。”(《金明馆丛稿二编》第247页。三联书店2001年出版)这些方法代表了上个世纪之初最先进的治学理念,即使放在今天来看也仍然具有不可忽视的意义。然而,时代在发展,在改革开发三十年,二十一世纪的第一个十年所剩时日也已不多的今天,我们反思并总结当代学界在古典文学研究方面的成就和缺憾,就会发现,自上个世纪八十年代以来尽管我们不停地尝试运用各种方法,但对当代古典文学研究影响最大的则是以计算机和网络为核心的IT(Information Technology,即“信息技术”)技术。
之所以这样说,是因为看似与古典文学研究这样的传统人文学科毫无关系的IT技术,对古典文学研究的影响已经渗透进这一学科的方方面面,这种影响不仅表现在文献的检索和资料的整理有了远超以往任何历史时期的便捷和准确,而且随着技术的不断发展,计算机所承担的工作将会逐步代替人所从事的部分工作,技术与心智的分野在部分领域将不再那样截然分明。
古典文学、包括与文学相关的历史文献的研究,所涉及的层面和研究范围相当广泛。如果我们做一个粗浅的区分,则大致可分为三个层面:其一为文献整理,包括大型文献总集的编纂、别集的整理等,涉及版本校勘、文献标点、作品辑佚等工作。在古籍数字化的数量和质量日益提高的今天,计算机在文献整理方面的优势正表现得淋漓尽致。例如,使用计算机的检索功能,可有效避免影响大型文献总集编纂质量的重收、误收问题,这一点在北京大学中文系开发的“全宋诗电子分析系统”中得到了很好的验证。又如,首都师范大学中国传统文化数字化中心进行的古典小说版本比对方面的研究,也很有启发意义。伴随越来越多的古籍被数字化,计算机在文献整理方面的优势将尽显无遗。建立在准确、快速、高效、智能基础上的计算机检索系统,可以帮助我们在古籍文献的整理方面大幅提高工作效率和工作水平。
我们以整理某个作家别集为例对此略作说明。别集的笺注、辑佚等整理工作,历来是古籍整理中除大型总集编纂之外的重点,清人以其广博的学识和严谨求实的治学精神,在别集的整理方面为后人树立了良好典范,其对李白、杜甫、苏轼等很多作家文集的整理具有集大成的特点,至今仍是我们阅读学习这些经典作家作品的必备版本之一。但是,清人的博学和严谨在今天的计算机时代便不再具有任何优势,因为计算机进行简单检索即可准确罗列出更多的有助于解释某个词语或典故出处的文献资料。这已是目前尽人皆知的事实,毋庸笔者赘言。笔者需要说明的是,如果有足够多的数字化文献支持,计算机这种建立在准确检索基础之上的诸多功能可以在古籍整理方面发挥得淋漓尽致,绝非仅仅限于简单地帮助学者查找某个词汇的原始出处。我们知道,整理一部作家文集无非需要这样几个步骤:一、确定一个优良版本作为底本。二、确定几个参校本以与底本进行比勘。三、从各类总集、类书、方志、他人文集等文献中辑出该作家的逸作。这其间又会遇到该作家的作品被他人文集误收或同一作品收录于多种文集,署名无法判断等问题。五、为该文集所收作品进行笺注。在这几种工作中,确定底本的工作必需由人进行,但在无法判断何种版本更为优秀的情况下,由计算机提取所有版本中的部分词汇进行比对,看看哪种更为合适也不失为一个有效的辅助方法。比如,古人刻书时有因字型相近而致亥豕鲁鱼相混淆的现象,如将“舆”、 “與”相混而致讹误,我们完全可以利用计算机将这些字从各个版本中提取出来,比对一下哪个版本错误率更低,从而在确定底本方面多一个可靠的参照系数。将参校本与底本进行校勘的工作基本上可以由计算机单独完成。由于计算机可以按照相关指令对数据进行任意排列,可以按照整篇、整句或逐字比对,所以,不论是分体编的文集抑或是编年体的文集均可交由计算机进行比勘。辑佚工作可以由计算机在广泛的古籍数据库中进行检索,提取出最大限度的备选作品,包括那些同一作品有不同署名的案例,计算机都会为我们提交一份经过比对处理而只等最后判断的清单。这不仅使我们能够搜罗到前人因见闻所限有可能忽略的作品,可以避免因见闻不广导致的各种遗憾,工作的繁杂程度和工作量也大为降低。至于为作品进行笺注等方面的工作,则可以由计算机根据事先建立的典故、词语、人名、地名等专有数据库对所处理的对象进行分析,并将分析结果按照设定的格式罗列在被笺注作品之下。事实上,这样的工作方式在某种意义上还是按照传统阅读方式所作的处理。在互联网已经进入Web2.0时代的今天,由于Wiki(源于夏威夷语Wee Kee,原意为“快点”,现用以表示一种支持面向社群的协作式写作的超文本系统,主要用以构建开放式的百科全书)等技术的运用,计算机可以随时根据阅读需要从相关典故、词语等数据库中提取相关数据对文本进行即时性解释,而无需事先进行笺注。
利用计算机从事古籍整理和文学史研究的辅助性工作,需要确保两个前提:第一,数字化的古籍文本必须是以精良善本为底本、经过机器和专家认真校勘的电子文本,也就是电子文本本身必须具备相当程度的可信度。这一点,由于目前古籍类数据库的开发主体不同,所采用的策略不同,部分数据库开发者或因为认识的误区,或由于版权方面的原因,在古籍数字化的版本处理方面尚不能尽如人意。不难想象,如果不能很好地处理版本问题,再大的数据库也只能仅仅充当一个检索字词出处的工具,而检索出的结果还需要学者与纸质书籍进行核对,很难以此为依据进行更为深入的工作。在这方面,高校古籍整理委员会项目“中国基本古籍库”处理得比较好,所收数字化文献均以精良善本为据。美中不足的是该数据库舍弃了各类古籍的序跋,令人无从了解这些版本的详细信息。第二,数字化的古籍文本必须已经达到相当规模。这一点,随着时间的推移和各科研教育机构对数据库重要性认识的提高,应该不难达到。目前,唐以前的文献基本上都有数字化版本。宋元两代的文献及明清二代的小说戏曲等多数已有数字化版本或正在被数字化。《永乐大典》、《古今图书集成》等大型类书和部分石刻、碑帖资料都已有可全文检索版本。明清两代的诗文文献和方志,由于数量浩繁,未见有大型高质量的数据库问世,距离有成效的实际应用,恐尚有相当的距离。但是,即使古籍浩如烟海,在日新月异的计算机扫描和OCR(Optical Character Recognition,光学字符识别)技术面前,终有被穷尽之日。问题在于出于经济利益的考虑,各数据开发机构都对所处理的文献进行了某种程度的加密或数据格式的限定,没有统一的“元数据”(Metadata,关于数据的数据,用以描述数据库结构等)标准,为各数据库间的整合利用带来了困难。而古籍数字化的程度和数据库被整合的程度越高,则前述运用计算机从事古籍整理和学术研究的成效才更大。
这里特别需要提出Djvu 文档格式的发明及其广泛应用问题。DjVu是由美国AT&T实验室自1996年起开发的一种图像压缩技术,已发展成为标准的图像文档格式之一,目前正得到越来越广泛的应用。这种压缩比例大、便于传输的数据格式,核心技术是将图像分成背景层(可用于显示纸的纹理)和前景层(可用于显示文本和线条)两部分,用高分辨率来显示前景层(文本和线条),而用低分辨率来压缩背景图片。其优越性在于显示文字或有用信息的前景层非常清晰,可以令读者阅读锐利清晰的文字信息而又保持原有介质的版式和风格,绝对不会遗失有用信息,也不会使前景层所负载的文字、图画等有用信息产生变异。因为从本质上而言仍是一种图形,所以保证了数字化后古籍文本的可信度问题,不会产生因校对不精而造成的信息失真。同时,因为这种技术是将图层分别予以不同的处理,对于文档前景层所显示的文字可以进行OCR处理,所以这个格式的文件可以进行关键字查询检索,满足数据库需要进行精确检索的需求(由于制作方式不同,并非所有djvu格式的文档都可以全文检索)。Djvu文档的这些特点对于传统古籍的数字化有着极为特殊的意义,它是截至目前惟一可以将稿本、钞本等文献纤毫毕现地发布于网络的压缩技术。时下网络上有《全宋文》、《丛书集成》和部分《续修四库全书》等文献都是利用这种文档格式制作并传播的。撇开知识产权保护问题不论,这种数据格式的发明的确为传统古籍的广泛利用提供了极大便利。
继续浏览:1 | 2 | 3 | 4 | 5 | 6 |
文章来源:中国文学网 【本文责编:思玮】
|