民俗学论坛-中国民俗学网 - Powered by Discuz! Board

标题: 网络文史信息检索、浏览与存储技巧 [打印本页]

作者: admin 时间: 2009-2-8 19:33 标题: 网络文史信息检索、浏览与存储技巧

网络文史信息检索、浏览与存储技巧

陈爽

象牙塔 2003-05-21 10:54:58

原载《文史知识》2002年第2期

和传统的目录学版本学一样，网络信息的检索、浏览和存储技巧，是网络文史应用的门径。辛苦搜寻多时，找到的却是一堆毫不相干的网页；满怀期待地打开一个慕名已久的网站，看到的却是一片天书似的乱码；从网络上小心翼翼保存下来的资料，在自己的文字处理软件中打开时却已面目全非，相信很多人都曾经历过这种尴尬和无奈。信息高速公路有自身的行驶规则和驾驶技巧，只有反复摸索和学习，才能熟练掌握，灵活驾驭。

                              一

　　从方法上讲，网络检索分为目录检索和搜索引擎两种。海内外大型门户网站都具有目录式搜索的功能，它是搜索引擎的技术外包，实质上是一个静态的数据库。你只需确定要查找目标所在的目录，然后一层层打开，逐步细化就可以找到。比如查找易经的有关资料，逐级打开搜狐的“社会科学”—“哲学”—“中国哲学”—“易经”，就会找到以“易经”为主题的30多个网站。进行目录搜索就象翻阅百科全书一样，浏览者必须知道自己所要的内容属于那一种分类，才能够很有效地查找到有关的内容，否则面对模棱两可的分类，就很容易进入其它的目录。门户网站的目录检索是由人工精心筛选的，由于分类原则不同，各个门户网站的索引分类和包含内容不尽相同，并时有变化，比如在新浪、搜狐等国内门户网站中，“文学”作为一级栏目出现，“哲学”和“历史”是“社会科学”的二级子栏目；而番薯藤等台湾门户网站中，“文学”、“历史”、“哲学”则是“艺术人文”的二级子栏目，至于三四级栏目划分各个网站更是五花八门。此外，由于索引编制者专业知识有限，索引更新缓慢，查找到的信息往往挂一漏万，比如雅虎中文“历史”类中，“大专院校历史系”一栏中，只有“北京大学历史系”一家。因此，仅仅依靠门户网站的目录检索，并不能很好的满足检索者的需要。
　　搜索引擎具有信息量大、准确性高、功能强、搜寻速度快的特点，充分体现了网络的互动功能。从技术原理看，搜索引擎的工作由三部分组成，即通过自动收集程序蜘蛛软件(Spider)收集网页的内容；通过索引器(Indexer)将收集回来的内容进行分析做成索引，通过搜索器（Searcher）响应用户的检索请示，用户输入关键字后，搜索器要用这个检索词与建立的索引器匹配，匹配后做相关性排序，再将排序结果送给用户。搜索引擎分为两类，一类是网站检索，一类是网页检索，前者仅是列出包含关键词的网站名，后者则是列出包含关键词的所有网页。
　　在搜索引擎中输入关键词，然后点击“搜索”，系统很快会返回查询结果，这是最简单的查询方法，使用方便，但是查询的结果却不准确，可能包含着许多无用的垃圾信息。一般来说，检索开始时不要把条件限制的过于严格，最好是检索出一些结果后，再使用其它限定条件来排除。过于专业、生僻的词汇可能导致检索不到结果，不恰当的限定条件也可以导致有用的信息被滤掉。如果不能进入到检索到的网页。一般是由于该页面已被删除或改名，或者是服务器不能正常运转。对于页面已删除或改名的情况，可以通过尝试进入上一层目录，仍可能找到自己有用的信息（将地址栏的网址的文件名一点点删除，在碰到第一个斜杠后停止，然后敲回车键），因为网站在不断更新，某一具体页面删除和结果修改时有发生，但网站URL的大体位置很少变动，我们仍然可以通过网站上一级的目录找到我们需要的内容。
　　除了选择适当的关键词外，使用搜索引擎有一些技巧可寻，比如给要查询的关键词加上双引号，可以实现精确的查询，这种方法要求查询结果要精确匹配，不包括演变形式。例如在搜索引擎的文字框中输入“史记”，它就会返回网页中有“史记”这个关键字的网址，而不会返回诸如“历史的记录”之类网页。在关键词的前面使用加号或空格，也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上，例如，在搜索引擎中输入“史记+研究+索引”就表示要查找的内容必须要同时包含“史记、研究、索引”这三个关键词。在关键词的前面使用减号，也就意味着在查询结果中不能出现该关键词，例如，在搜索引擎中输入“忽必列-金庸”，它就表示最后的查询结果中一定不包含“金庸”字样，这样就排除了许多与研究无关的金庸小说。要特别注意的是，以上所说的“+”“-”和空格等符号均半角符号，如果输入全角字符，则不能识别。
　　在许多学术网站的专业数据库中，我们要应用到布尔检索（或称为布林运算法查询）。所谓布尔检索，是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法，这种查询方法允许我们输入多个关键词，各个关键词之间的关系可以用逻辑关系词来表示。“and”或符号“&”，是逻辑上的“与”，用and进行连接，表示它所连接的两个词必须同时出现在查询结果中，例如，输入“李白and杜甫”，它要求查询结果中必须同时包含“李白”和“杜甫”；“or”或符号“|”，是逻辑上的“或”，它表示所连接的两个关键词中任意一个出现在查询结果中就可以，例如，输入“李白or杜甫”，就要求查询结果中可以只有“李白”，或只有“杜甫”，或同时包含“李白”和“杜甫”。“not”或符号“!”，是逻辑上的“非”，它表示所连接的两个关键词中应从第一个关键词概念中排除第二个关键词，例如输入“唐诗not李白”，就要求查询的结果中包含“唐诗”，但同时不能包含“李白”。“near”，它表示两个关键词之间的词距不能超过n个单词。在实际的使用过程中，我们可以将各种逻辑关系综合运用，灵活搭配，以便进行更加复杂的查询。
　　许多搜索引擎还提供一些特殊的检索服务，如BBS检索、新闻组检索、FTP检索、地图检索，图像检索等。比如我们要查找“四羊方尊”的实物资料，那么在特定的图像检索引擎中输入“四羊方尊”，就可检索出网上上相关的图片和网站链接。

　　　　　　　　　　　　　　　　　　　二

  网页中的乱码现象，主要是由于网站使用内码不同所致。由于历史的原因，目前网络上的汉字字符有多种编码方案：GB码（或称国标码）是中国大陆制定的标准，包含约6763个简体汉字；BIG5码（或称大5码）是在香港和台湾地区最为流行的内码，大约包含13070个繁体汉字；近年来，大陆又颁布了GBK代码?全兼容原GB2312编码，包含简体和繁体汉字约21003个。
　　在IE浏览器内，内码转换器比较简单：用鼠标单击菜单栏中的“查看”菜单项，并从弹出的下拉菜单中选择“编码”命令（如果IE浏览器版本在4.0以下，则应选择“字体”选项），然后从其后的下级菜单中选择需要转换成的字符类型，例如选择繁体中文、日文或者其他的外文字符，这样一来页面中的乱码通常就可以正常显示了。如果网页编制规范，在高版本的浏览器中，这一过程是自动完成的。如果选择编码以后仍不能正常显示，则表明浏览器没有安装繁体中文字库，需要用“定制安装”或从网络下载安装IE的繁体字库。如果想浏览日文或其他语言的网站，编码转换步骤大体相同。
　　网上文史专业数据库多在海外，使用BIG5编码，我们不仅仅遇需要正常浏览，还需要准确输入检索词，使用一般使用简体汉字输入法是不能解决这一问题的，一些中文平台和个别输入法的新版中提供了繁体汉字的输入，在windows自带的汉字输入法中，我们在使用中只有切换到“全拼”（或不太常用的“郑码”）输入法才能使用GBK大字符输入功能。如果仍然没有找到大字符，请在“我的电脑”—“控制面板”—“输入法”中，打开“全拼输入法”的“属性”，把“检索字符集”从“GB2312”转移到“GBK”。在进行检索时，还要注意简繁字形的细微差别，比如“户”和“戶”、“吴”和“吳”、如果输入了一个很常用的词，却没有返回任何检索结果，就应该考虑从字形差异方面找一下原因。
　　如果浏览者使用的不是简体中文操作系统，则需要外挂南极星、四通利方或中文之星的中文平台来完成中文网页的浏览与检索。

　　　　　　　　　　　　　　　　　三

  网上查找到的资料格式各异，编码有别，如何把这些资料按照统一的格式保存起来，为我所用，是一个看似简单而实际操作又有很多麻烦的问题。
　　浏览到的网页资料可以分为很多种文件格式保存，如果仅仅保存其中的文字资料，可把文件另存为文本文件（*.txt）；如果想保存原来网页上的颜色和排版格式，应该把文件保存为网页格式（*.htm）；如果需要完整保存网页中所有的图片和动画，则应保存全部网页。需要注意的是，以这个方式保存的网页，会在电脑上生　　成一个单独的网页文件和一个同名的文件夹，里面包括了这一网页所有的图片动画和控制文件。日后编辑修改时如果需要移动文件位置，文件夹的位置也要相应移动。
如果网页是用BIG5繁体中文编码的，我们在保存为文本文件时要特别注意把编码改为GB2312，否则保存的文件　　仍然是乱码。许多台湾网页中的汉字与汉字之间常常包含了一个个半角空格，四通利方、中文之星等中文平台都提供了汉字“去空格”的处理功能，如果手边没有这些软件，可以用WORD打开保存的文本，在菜单中找到“编辑”栏中的“替换”对话框，在“查找内容”中输入一个半角空格，把“替换为”选项保留空白，点“全部替换”按钮，把多余的空格全部替换掉。
　　如果想单独保存网页中图片资料，可用鼠标点中图像，单击鼠标右键，“图片另存”到相应的目录。
网页中表格资料的保存是个很棘手的问题，无论我们用什么方式保存网页中的表格，再用其他文字处理软件打开总是面目全非。表格资料的的存储技巧是：在网页中选中表格，复制（Ctrl+C）到Windows剪贴板，再打开WORD文字处理软件，粘贴（Ctrl+V）到WORD文档中，再次选中表格，在菜单中找到“表格”—“表格自动套用格式”，把表格变成自己习惯的的书写格式（如网格型）。用这种方法保存转换表格，可以避免表格数据丢失和格式错位的现象。
　　有些网络资源，并不能直接在浏览器里观看和阅读，需要自己电脑中安装相应的阅读和处理软件，比如，网页中的部分电子采用了帮助文档格式（*.hlp、*.chm），需要调用windows中的电子文档阅读器；网页中的WORD文档（*.doc）、EXECL表格（*.xls）、POWERPOINT幻灯演示（*.ppt），需要浏览者自身安装OFFICE办公组件才能调用；一些电子文本是经过压缩软件处理的（*.zip,*.rar等）、浏览者需要通过winzip、winrar等解压软件释放以后才能阅读；而采用了PDF格式（*.pdf）的扫描文档，需要通过Adobe acrobat等特定的阅读软件来观看。
　　“公欲善其事，必先利其器”。每种检索方法都不是万能的，每种搜索引擎都有不同的特点，每个浏览和存储技巧都有一定的适用范围。只有根据自己的实际需要，选择合适的搜索工具，选择适当的浏览和保存方式，才能得到最佳的结果，从而熟练地寻找资料，驾驭资料，而不至在信息的海洋中迷失。
编辑：陈爽

欢迎光临民俗学论坛-中国民俗学网 (http://chinafolklore.org/forum/)