打印

《史记》电子资源述评

《史记》电子资源述评

《史记》电子资源述评

刘伟、胡海香

象牙塔  2004-12-22 02:10:57

刊《史学月刊》2003年第10期,象牙塔网络编校


  
  随着人类社会的不断进步,计算机技术的广泛应用对于传统学术研究的影响也越来越突出。这对于中国古代历史的研究者来说是一个福音,以前需要人力自己完成的翻检工作,现在只要坐在电脑前就可以轻松完成。就以《史记》来说,目前就有形形色色的电子版本供大家使用,当然由于制作者能力、水平、经济基础、出发点以及利用的技术手段不同,他们制作的电子版《史记》也就有自己的特点。在此笔者拟就当前比较常见的一些电子版《史记》的基本情况和特点作一简单评述,希望能对大家的利用提供一些有益的参考。

             一  光盘版的《史记》

  由于中华典籍浩如烟海,也就有了容量巨大的电子光盘作为其传播的载体。《史记》作为中国最基本的典籍,在各种电子版文献中都是必不可少的。光盘版的《史记》,影响比较大的有以下几种:
  (一)《四库全书》中的《史记》
  上海人民出版社、北京书同文公司与香港迪志文化有限公司1999年联合推出的国家九五光盘出版重点项目——文渊阁《四库全书》电子版,是目前在学者群体中流行比较广的一种。《四库全书》共3462种、79300余卷,约8亿字,全套光盘有100多张,其中有《史记》以及相关的注释、考证著作多种。它首次实现了书名、著者、类目和全文中的字、词、语等多途径检索。读者可以进行单项检索,也可以进行多项检索。一般情况下,一次检索5秒钟便可获得结果;阅读时,又可随意在电脑上作阅读笔记,可摘录检索到的有关内容,或编排下载、打印;此外还挂接了扩充的电子工具书,如对某些字义不明确,可点击《中华古汉语字典》,有关的解说便会立即显示其旁,解释中的内容还可以再检索,由表及里,由此及彼。
  除了上述京、沪、港合作出版的《四库全书》外,湖南电子音像出版社、岳麓书社与湖南华天集团也从1998年起合作出版全文检索电子光盘版《四库全书》,它有全汉字字库和编码方案,所以它易于查找和全文检索;它采用多级结构参数化曲线字库技术,因而其文字可无级放大或缩小,阅读时变得清晰爽目;它提供了10万字的在线电子字典和词典,可使难认难懂的字词在线得到解释、注音,使其变成普通读者都可读懂的电子图书,因而便于普及,便于《四库全书》在更大范围内利用。
  另外,济南汇文科技开发中心也研制了《四库全书》原文电子版,由武汉大学出版社1998年出版。《四库全书》原文电子版囊括了经、史、子、集四部的所有文献,共计200余万页,150张光盘。它采用图像方式存储文献资料,保存了原书的风貌,并提供书目检索功能,不但能按原书目录检索,而且能够方便地按书名、作者、作者朝代、盘号、书号检索;为方便阅读,系统提供了标记注释功能,读者可加自己的标记;另外系统还提供缩放显示、裁剪、打印等功能。整个系统在windows系统下运行,操作简单,易学易用,且极具收藏价值。
  (二)《汉籍全文检索系统》中的《史记》
  该全文检索系统是由陕西师范大学历史系和古籍研究所有关人员于2000年设计制作完成的,负责人是历史系袁林副教授。其内容分为经、史、子、集四类,可以对《史记》中的任意字、词以及字词串进行快速检索;也可以将《二十五史》全部或其中的几种作为检索对象;可以将检索结果进行打印或文本文件输出。该系统保留原文大小字区别,并以不同字号和颜色显示。
  《汉籍全文检索系统》的一个弊病在于,它安装有硬件锁(俗称“密码狗”)。这是为了防止软件广泛传播并因此影响设计开发者利益而设置的,当然其提高销量、追求经济效益的目的是可以理解的,但对于经济实力不强的研究者来说,这无疑是一个负担。
  (三)《二十五史多媒体全文检索阅读系统》中的《史记》
  人民邮电出版社于2000年秋推出《二十五史多媒体全文检索阅读系统》,据称是国内第一套对《二十五史》的全文检索系统。它集多媒体娱乐、阅读学习和检索研究于一体,具有先进易学、高效实用、个性配置、品位高雅的特点。该盘收录了百衲本二十四史和关外二次本《清史稿》包括图表在内的全部内容,以及清代至当代学者的部分辑佚、校勘成果和一些实用的工具。附录了张元济撰著的《校史随笔》以及中国古代历史地图的集大成之作《历代舆地图》中的全部近2000幅大比例历史地图,并配补了《左传》等10多部史学名著。
  (四)《百衲本二十四史》电子版光盘中的《史记》
  由北京、香港、新加坡、吉隆坡、台湾五地商务印书馆联合组建的商务印书馆国际有限公司利用高科技手段,于1998年推出《百衲本二十四史》(中国广澳开发集团研制)电子版光盘。该光盘以著名作家、学者钱钟书先生为总顾问,以20世纪30年代商务印书馆张元济主编的《百衲本二十四史》为底本,依原貌以高点阵图形方式收存原书版片132340页,并在《史记》、《汉书》、《后汉书》和《三国志》中配以全部人名、地名、书名的数据库,其他各史配以全部人名的数据库。《百衲本二十四史》电子版光盘提供了全新实用的智能化检索,可以在读者设定的多种检索条件下有效地控制检索范围,全部操作不需中文输入,均有在线中文提示和帮助,并设有页码显示;它还充分尊重传统的阅读方式,读者既可以按顺序读,也可以直接阅读某一卷或某一页。该系列光盘汲取了史学界有关学术和科技研究的优秀成果,结合每部史籍的不同情况,以全新的索引查检系统为经络,大量优良的图像、准确的文字数据构成其主体。作为技术关键的诸多索引,也都有着友好的界面、周到完整的设计、准确快速的功能,可以在一定程度上满足研 究者的需求。
  (五)“中国基本古籍库光盘工程”中的《史记》
  2001年3月份,“中国基本古籍库光盘工程”取得了阶段性成功。这是北京大学的重点项目,1998年经国家相关主管部门的批准立项启动。这套全文电子信息版光盘的收书上起先秦、下至民国,共荟萃重要典籍1万余种,总计全文20亿字,版本图像2000万页。其中近2000种为世人罕见的孤本和珍本,具有极高的学术价值和收藏价值。全套光盘的内容总量相当于3部《四库全书》,堪称规模空前的中国历代典籍总汇。目前,由安徽黄山书社出版的这套光盘已进入大批量生产阶段,整个工程可望在3年内完成。但该工程的网络建设不能让人恭维,虽然已经建了网站(http://www.cn-classics.com),但只能了解一些关于工程进展情况的大概信息,而且更新速度比较慢,也不能提供检索服务。
  (六)《国学宝典》中的《史记》
  近几年在文史学者中间广泛流传和使用的光盘,还有首都师范大学尹小林先生设计制作的一套名为《国学宝典》的数据库光盘。这个大型古籍文献数据库,收入了《十三经》、《二十五史》、《资治通鉴》、《续资治通鉴》、诸子百家、唐诗宋词元曲、全上古文、明清戏曲小说、历代学术笔记、佛典、道典等近2000种3亿汉字的先秦至晚清文献。近期又相继完成了唐宋八大家全集、十三经注疏等大型文献。《太平御览》、唐宋笔记全集、禅宗典籍大全、数术大全、三通等工程也已经完成或正在上传。不少学者给予这套软件以很高的评价,认为它极大地方便了文史研究工作。但其存在的问题也是非常明显的:校对不够精确。
  (七)《中华历史文库》中的《史记》
  该软件由北京卓群数码科技有限公司策划制作、北京银冠电子出版有限公司出版,考虑到读者的不同需要分繁体字和简体字两个版本。其内容包括《二十六史》、《资治通鉴》和《续资治通鉴》三部分。其中的《二十六史》由“百衲本”整理辑录而成,采用国际上流行的PDG格式。阅读时读者所见到的是最熟悉的简(繁)体横排32开书版版式,字体美观,界面友好,书签功能和查找功能也非常方便。另外这套光盘还赠送30余首中华经典民乐,使读者在使用时,可以同时享受高清晰的数字音乐。
除了以上几种可对《史记》进行全文检索的电子版《史记》以外,20世纪90年代中期,台湾中央研究院将中华书局点校本二十五史做成数据库,卖给日本、美国,每套8万美金。至于是不是做成了在市场上流通的光盘还不清楚。

        二  可在internet上进行全文检索和在线阅读的《史记》

  台湾的“汉籍电子文献”(网址为http://www.Sinica.edu.tw/ftms-bin/ftmsw3),为全文数据库,可检索文献中的任意字串,共11600余万字。内容包括《二十五史》、《十三经注疏》、“诸子”等古籍95种、台湾方志档案文献132种等。其中,包括《史记》在内的《二十五史》在网络中属于有条件的开放,即可以检索但不能全文浏览,检索结果只能显示前30条,因此对于出现频率高的词语不太适合使用,其检索结果与中华书局的标点本《史记》页码一致,并可保存、编辑、打印输出。(注:对于台湾中央研究院史语所的这套全文检索系统,陈爽有《利用国际互联网进行<二十五史>资料检索》一文作过详细介绍,见《中国史研究动态》1998年第8期。)
  香港中文大学正在建设的“先秦两汉一切传世文献电脑化资料库”、“魏晋南北朝一切传世文献电脑化资料库”、“竹简帛书出土文献电脑资料库”(网址为http://www.chant.org/scripts/main.sp),目前输入文献约千余种,2400余万字,已经以光盘出版或上网文献约百余种。
  在国内,也有一个非常重要的网站——国学网(http://www.guoxue.com),它是《国学 宝典》的设计制作者尹小林先生为了给学林提供方便而创办的,该网站将《国学宝典》中的重要数据制成网页上网,免费提供大家使用。此种《史记》采用了比较常见的html格式,可以直接在windows系统的internet explorer浏览器下阅读,不需要另装其他辅助设备。
  另一个专业的读书网站——黄金书屋(http://www.myrice.com)也提供在线阅读与下载 服务,其格式与国学网相同,也是采用html格式。
  除了以上影响比较大的提供在线阅读的网站外,还有一些规模比较小的网站提供类似服务,如名著在线网(http://www.mingzhu66.com)、中国青少年新世纪读书网(http://www.cnread.net)等,此外北京大学中文系也把包括《史记》在内的前四史放到了网络上供查阅。这些网站的《史记》也都是html格式。
  Html格式的文件可以广泛传播,但对于一般研究者来说,发挥其检索功能才是最重要的。而html格式在检索方面的功能非常有限,一般情况下,它每次只能检索一个页面,这大大浪费了学者们的时间。这时候就需要一种比较好用的读书软件来完善html格式文件的功能。在这里,笔者根据自己的亲身体会向大家推荐一个叫做“readbook”的小软件。
  Readbook是一位叫余民的朋友设计的一个在网络上广泛流传的共享软件。其主要特点有:可一次打开多个html等格式的文件;自动平滑滚屏,可多级调速,字体颜色可调;支持Txt、Html、Wps等多种文件格式;同时支持GB、BIG5码,并可自动识别;可以直接读取Zip文件;可以将文章任意显示为简体或繁体;字体边角圆整功能。可以高质量地显示文字。支持“块定义与拷贝”;可以对文件进行局部编辑,用以改正文件中的错字;具有“智能分段”功能,可以将每行都是硬回车换行的文章,去掉回车重新排列,并且不破坏原有的段落;在DirectX支持下,可定制分辨率和色彩数;模糊查找功能,可检索任何一个英文字母或一个汉字;存盘功能,可将转换了内码和重新分段的文章按新格式存盘;可选择使用独创的“鼠标控制”,以鼠标的屏幕位置决定滚屏速度;标准Windows程序,几乎所有功能都有快捷键和快捷按钮;病毒防御功能,可以检测到CIH病毒;自动修复功能,受病毒感染或者Readbook.exe轻度受损的情况,ReadBook可以修复自身;预定屏幕方案,软件内含十余种常用的配色方案和字体设置;“页模式”更方便,软件按一定时间将屏幕上卷,一次一页;全面支持鼠标拖曳,支持鼠标滚轮。该软件可以在各大提供软件下载服务的网站下载,也可以到作者的个人主页(http://readbook.126.com)下载。

            三  “超星数字图书馆”中的《史记》

  在图书数字化热潮中建设起来的国家重点项目——“超星数字图书馆”的历史、地理 ”类中有《史记》全文,用图形扫描的方式把中华书局标点本《史记》放到网络中提供给大家下载或在线阅读(网址http://www.ssreader.com),也可以打印输出。(注:要下载超星图书必须购买超星图书卡,成为注册用户;否则只能在线阅读。)另外,超星图书均为pdg格式,阅读之前先要下载专用浏览器,随着版本的不断升级,该浏览器的功能也不断完善,现在已经能够在一定条件下把图形文件转换成纯文本格式,但准确率有 待提高。更值得一提的是,该浏览器比较新的版本(3.61以上)已经可以对pdg格式的图 书进行全文检索,这就在一定程度上提高了利用效率,方便了广大读者和研究人员。
  除了《史记》全文以外,超星数字图书馆里还有日本史学家泷川资言的巨著《史记会 注考证》,为研究者提供了一定的方便。
  但超星版本的电子图书的弊端也是显而易见的,主要有三点:首先,虽然新版本的浏 览器可以进行全文检索,但只适用于最近上传的部分图书,包括《史记会注考证》在内 的大量有价值的图书目前还不能实现检索;其次,这种扫描的pdg格式的图形文件虽然 保留了纸版图书的原貌,但有时候字迹看不清楚;再次,图形文件太大,一本书就占去 上百兆的硬盘空间,不利于大量下载保存。

            四  个人独立开发的小型阅读与检索软件

  除了有实力的公司、企业从事大规模的开发以外,也有一些对中华传统文化感兴趣的朋友设计制作了可供阅读和检索《史记》的软件,以下笔者为您介绍其中两种比较实用的软件。
  (一)“家庭百宝箱系列软件”中的《史记》
  广西桂林的一位名叫秦昌荣(自号“秦堤居士”)的朋友设计制作了“家庭百宝箱系列软件”,《二十五史》是其中的一种。其主要特点:1.内容比较全,《史记》中除了司马迁的正文以外,还有流行的三家注。2.点击栏目,显示内容。软件采用help格式,简捷明了,左边是分得很细的栏目,右边是显示所点击栏目的内容。使用时,点击任意一个栏目,都将在右边显示该栏目的相应内容。3.关键字搜索。使用者在“搜索”标签下输入任意关键字,只要本软件的页面有的,都可显示出所有有关此关键字的页面的目录列表,再点击目录列表的任意一项,都可在所显示页面中以蓝色背景标明所有已选的关键字。比如:输入历史人名“孔子”、“屈原”等,可显示相关卷目和与之有关的所有内容,进而可在《二十五史》的相关软件成员中快速查阅与其有关的历史事件。4.索引功能。索引分得很细,双击某栏目,即可显示相应内容。5.打印功能。某一页面的内容需要打印,都可按下“打印”按钮进行打印。
  由于个人力量有限,这种《史记》检索软件存在一些问题需要解决:其一,由于字库所限,一些通行字库中没有的生僻字无法正确显示;其二,检索命令发出后,虽然能自动检索出所有结果,但需要手动翻页查找检索结果,可能造成关键词的遗漏。
  作为对个人劳动的报答,我们可以交纳少量费用获得成套软件,但若只需要《史记》,则可以直接从秦先生的个人主页“中华文史软件网”(http://www.jtbbx.com)上下载压缩文件,然后用解压缩软件还原就可以使用。
  (二)北极星书库中的《史记》
  internet上还有一个提供免费阅读与下载包括《史记》等众多典籍服务的个人网站——北极星书库(http://www.ebook007.com)。该书库分类比较粗疏,但内容比较丰富,主要是利用网络上已经有的电子资源,再进行加工,做成chm格式或help格式提供阅读和下载。其功能与“家庭百宝箱系列软件”中的《史记》比较相似,但错误要少一些。

    五  由《国学宝典》与《汉籍全文检索系统》的纠纷谈电子文献的著作权保护

  作为一种新兴而潜力巨大的产业,电子文献的前景无疑是非常光明的。但不可否认的是,由于正常的秩序还没有完全建立,当前的电子出版和网络信息市场还有很多不规范的地方,成为电子版图书进一步发展的最大障碍。其中首要者是版权问题,前年曾经闹得沸沸扬扬的《国学宝典》与《汉籍全文检索系统》的知识产权纠纷就是其中一例。
  根据《中华读书报》的报道,尹小林于2001年发现有人未经允许任意使用《国学宝典》和国学网上的资源,并有人制成光盘公开销售。他特别指出《汉籍全文检索系统》“盗窃了《国学宝典》的工作量”。对于尹小林的指责,《汉籍全文检索系统》的设计制作者不以为然,认为古籍数字化整理是学术研究事业的一部分,而古文献原本是天下公器,人尽可使用之。至于《汉籍全文检索系统》中有相当一部分与《国学宝典》在目录、格式、标点方面近似,并不等于前者“盗窃”。他的理由是:所谓“盗”是指侵犯别人的所有权,试问拿走原本“来路不明”的数据何盗之有?(注:张志雄,李文科:《古籍数字化:彩声不断,完善缺钱》,见《中华读书报》2002年2月20日。)在这篇新闻发表后,2002年2月26日,尹小林又在国学网上发表《关于<古籍数字化:彩声不断,完善缺钱>的补充说明》,针锋相对地驳斥了袁林的“狡辩”,指出“盗版更是困扰古籍电子化的一个难题。不仅有业余的‘外盗’,而且有专业的‘内盗’。如《汉籍全文检索系统》‘有相当一部分与《国学宝典》在目录、格式、标点方面近似’(也许是记者笔下留情,其实就是相同),其数量之大(200多部书总字数超过2000万)实为近几年所罕见。《汉籍全文检索系统》的作者狡辩说并不是‘盗窃’,理由也可笑。试问拿走原本‘来路不明’的数据何‘盗’之有?第一,你凭什么说数据‘来路不明’?第二,未经允许拿走别人的东西不是‘盗’至少也可算‘窃’吧?(读书人,窃书不为偷)第三,《汉籍全文检索系统》并非作者所称‘原本是天下公器,人尽可使用之’,不仅公开销售,而且还用软件狗加密,惟恐别人拿去成为‘天下公器’。”虽然双方唇枪舌剑,各执一词,但似乎不愿意诉诸法律。而事实上,我国已经有一些相关法规出台。
  为了保护著作权人合法的权利,我国在1990年9月7日通过了《中华人民共和国著作权法》。1991年国务院又颁布了《计算机软件保护条例》,确认并保护软件著作权人的相关权利。国家新闻出版署还在1998年1月1日开始实施《电子出版物管理规定》,以规范市场。其中第二十八条中规定:“合法的电子出版物受法律保护。任何组织和个人不得非法干扰、阻止、破坏电子出版物的出版。”第七十六条规定:“出版、复制、发行、附赠明知侵犯他人著作权的电子出版物的,没收电子出版物和违法所得,并处违法所得3倍以上10倍以下的罚款;情节严重的,责令停业整顿或者吊销许可证;构成犯罪的,依法追究刑事责任。”前文所提到的《国学宝典》与《汉籍全文检索系统》的纠纷就可以依据此规定加以解决,但却一直僵持不下,究其原因,一方面是古代典籍的特殊性使得对于版权的确认很难定性;另一方面是《国学宝典》似乎还拿不出确凿的证据。因此,这场纠纷最终很有可能不了了之。有鉴于此,相关部门似乎有必要对涉及到古代文献的版权做更加细致的规定。
  由于电子出版物的出版和发行与传统的纸质出版物有比较多的相似之处,国家的法规还算可以及时跟进;但近年来日益膨胀的网络信息资源相对来说还是新生事物,国家的相关立法就显得有些滞后,于是这方面的纠纷接踵而来。最近国内两大门户网站新浪和搜狐之间的诉讼就是非常典型的一例。而就《史记》来说,目前形形色色的提供下载和在线阅读的网站特别是个人网站中,大多数都是就地取材,把其他网站上的内容照搬过来,或者进行一些修改。因此网络上的《史记》虽然很多,但多数情况下都是非常接近甚至完全相同的,这是网络的开放性所造成的一个亟待解决、但也是很难解决的一个问题,为此,《最高人民法院关于审理涉及计算机网络著作权纠纷案件适用法律若干问题的解释》自2000年12月21日起施行。《解释》中明确,著作权法第十条对著作权各项权利的规定均适用于数字化作品的著作权。将作品通过网络向公众传播,属于著作权法规定的使用作品的方式,著作权人享有以该种方式使用或者许可他人使用作品,并由此获得报酬的权利。如果其作品被剽窃、抄袭,也可以按照《著作权法》的相关规定处理。2001年10月27日,我国颁布了新的《中华人民共和国著作权法》,软件也在该法的保护范围之内,但第五十八条又说:“计算机软件、信息网络传播权的保护办法由国务院另行规定。”但这一另行制订的规定目前还没有出台。即便是2002年9月15日起施行《中华人民共和国著作权法实施条例》,也没有对网络著作权做出明确规范。
  对于以超星数字图书馆为代表的各家数字图书馆来说,版权问题也是他们所面对的一道坎。特别是在知识产权保护期限内的图书,它们的作者、出版社的权益必须得到尊重,但对版权的过分保护势必会阻碍信息传播。尽管如此,超星数字图书馆中的图书仍然出现了被大面积盗版的现象。因此,中国的数字图书馆作为国家公益事业的一部分,就面临既要服务读者、又要保护自己不被盗版的难题。对于《史记》来说,司马迁的原文基本上可以随意利用,但对其的注释、考证著作的使用则也要考虑版权问题。这既是一个法律问题,更是一个技术问题。数字图书馆依靠自己的力量是不能解决这一问题的,这需要相关法规的完善和相关技术的提高。

          六  电子版《史记》中存在的问题及其对策

   除了版权问题需要开发商格外注意外,当前还有其他一些因素制约着电子文献的发展,就史记来说,目前还应该在如下几个方面进行努力:
  (一)尽快实现格式的统一
  目前的电子版《史记》,存在各种各样的格式,如本文前面提到的pdg、help、chm等等。由于很多格式都需要专门的阅读工具的支持,这就给读者的阅读带来了很大不便。所以,格式的统一势在必行,除了能给读者提供方便以外,统一格式还可以降低成本,提高质量和效率,而且便于大范围的推广。
  但统一格式远不如想像的那么简单。因为这牵扯到各个方面的利益,而协调好这些不同的利益是需要一个长期的过程的。从一定意义上说,格式就是电子资源的行业标准,而拥有这个标准,无疑会使自己在竞争中占据有利地位。所以格式的统一不是一朝一夕能完成的。从目前情况来看,那些既能保留图书原貌、又能实现全文检索功能的格式将在未来占据主导地位。
  在当前诸侯割据混战的情况下,我们在利用电子版《史记》的时候,可以根据自己的实际需要来选择:如果只是利用它来检索自己所需要的人名、地名等名词,可采用help、chm、html等格式的《史记》;如果需要做一些文献学性质的工作,如校勘等,则可采用pdg等格式的《史记》。
  (二)尽量采用先进技术
  先进技术的采用,应该符合两方面的需要:其一,保留原书的信息;其二,能最大限度地实现其价值,如可以进行全文检索等。目前所见到的电子版《史记》,基本上都是局限于一个侧面。前者以超星数字图书馆为代表,后者则在更大的范围内传播。以后的发展方向,则应该是这两种模式的结合。在近年的电子图书建设中,已经有不少人为此而努力。其中值得一提的是全息数字化技术。
  这种全息数字化技术的特点是能完整保留原印刷版的全部完整信息,既包括前面所提到的文字信息和图像信息,还包括字体、字号、文字位置、版式、公式、图表等信息,而且能实现最广泛的检索手段。当然其占用的空间比文字录入性质的html等格式要大一些,但比扫描的pdg格式要小很多。
  值得注意的是,技术革新除了要充分考虑读者的使用效率以外,还应该在加密技术上做足文章,这样才能更好地保护相关机构的版权。
  (三)要处理好当前经济利益与长远利益的关系
  对于包括《史记》在内的各种古籍来说,都需要面对两个市场,一个是学术市场,另一个是大众市场。而学术市场的消费者都是比较专业的学者和研究人员,他们对古籍软件的技术功能、精确资料要求较高,否则便弃之不用,并进而影响到大众市场的舆论评价。因此,出版商应放弃过于功利的短期效益观念,树立长远眼光,充分重视现代信息技术与古籍出版产业结合的市场价值,利用资源和专业优势,与高技术公司、科研单位、大专院校、投资者开展多方位的合作,树立品牌意识,精心策划、精心编辑、精心校对、精心制作,生产出高质量的产品。
  (四)消除汉字字库不足的瓶颈
  计算机现有的中文字库,日常使用尚且偶有困难,应用在古籍上时,缺字情况更是屡见不鲜。对此,一般的对策是换字或空字,或用“某加某”的形式表示,也有的制作一套字型文件供使用者下载。但这些情况影响了电子数据的精确度,成为专家学者不敢直接以电子文献为依据、还要核对纸版原文的重要原因。因此,开发通用的、大容量的中文字库势在必行。
  目前全球中文使用三套内码:中国大陆、新加坡及东南亚地区使用国标码,简称GB码;香港、台湾和澳门地区使用BIG5码;北美、西欧华人使用HZ码。三种中文内码使用的结果是互不兼容。此外,GB码的最大缺陷就是字库不够用。GB码的国家标准是GB2312,只收录6763个汉字。至今中国大陆的许多运用软件,仍然执行的是这一国家标准。随着中文汉字国际标准——“ISO/IEC10646.1”的制定,全球中文内码有望统一。1995年国家颁布了一个新的汉字内码扩展规范:GBK(即国际扩展字库),在保持GB2312的基础上,将其字汇扩充与ISO10646中的CJK(中国、日本与韩国统一编码汉字)等量,同时也包容了台湾的工业标准BIG5码汉字,共收录20902个汉字,还为用户留了1894个码位的自定义区。
  2000年3月国家相关部门发布了两项新的中文信息处理基础性国家标准。其中一项为强制性国家标准,称为GB18030-2000《信息技术和信息交换用汉字编码字符集、基本集的扩充》,收录了27484个汉字,而繁、简字均处于同一平台,总编码空间超过150万个。美国Microsoft公司的操作系统WindowsXP已经支持这一标准。再有,在汉字文化圈(中国内地、香港及台湾、日本、韩国、越南、新加坡)专家的争取下,国际标准化组织在Unicode编码体系中给汉字划出了9万多个码位。在字库扩充完成后,各种内码转换不便的状况将得到彻底解决,古籍资源的电子化将会有更大的发展空间。

  【作者简介】刘伟,北京师范大学历史系;北京 胡海香,曲阜师范大学历史系

编辑:陈爽

TOP