这些讨论的重要结果是一个新的愿望清单，即将这批收集构思为广泛可用的数字收集，以及一系列可以帮助分类、演示和分析收集的研究工具。这些愿望中最重要的一个就是为克里斯滕森的收集，乃至所有民俗收集，创造一个综合的基于计算机的学习环境。随着这种理论环境开始形成——勾画在白板上，潦草地写在纸片上，描绘在餐巾纸上，刻写在啤酒杯垫上，用折纸和细绳模拟出来——它聚合成的轮廓，被伯尔纳（Katy Börner）颇引人注目地称为“显宏镜”（macroscope）。对于伯尔纳来说：“显宏镜提供了一个‘整体视野’，帮助我们‘综合’相关元素并检测模式、趋势和异常值，同时得以深入种种细节。显宏镜不是使事物更大或更小，而是让我们注意到那些对人眼和思维来说太大、太慢，或太复杂而未能注意和理解的东西。”自民俗学学科形成以来，细读（close reading）一直是该学科的基本分析方法，而显宏镜方法是莫雷蒂（Franco Moretti）所称的“远读”（distant reading），这里的“距离是一个知识条件：它可以让你专注于比文本（技巧、主题、修辞——或者文类和系统）更小或更大的单位”。

　　重要的是，我们设想的显宏镜会远远超出这样的简单能力，将视角从近距离切换到远距离，以及采纳各种方法分析民俗得以传播、收集的社会和信息网络。通过引入外部资源，如人口普查清单、投票和征兵案卷、教堂书籍、保险报表和遗嘱记录，显宏镜会使研究人员考虑必然影响所有传统轮廓的历史潮流。

　　通过引入详细的地理参照历史地图，显宏镜会使研究人员将搜集的资料与传统参与者生活、工作及搜集者活动其中的不断变化的物质环境联系到一起进行观察。简而言之，民俗学显宏镜将模拟民俗资料搜集的复杂动态，不仅要考虑文本，还要考虑邓迪斯（Alan Dundes）提出的语境和亚文本。显然，实现这些目标需要计算机工具协助，用远距离的、比较的方法发现模式，协助查询那些参与规模不断变化、多视点的模式，并以有意义的方式可视化这些参与的结果。以此，民俗学显宏镜将会使研究者意识到一个基本前提，即民俗资料是由生活在嵌入了时间和地点的复杂社会中的民众所创造的。

　　首先，我将简要探讨我们是如何最终开发出“丹麦民俗关联”（Danish Folklore Nexus）数据库的，这是一个概念验证研究和演示环境，代表了开发民俗学显宏镜的首次尝试。我还要强调另一项工作，它关注用于模式发现的计算机工具，我们已经将这种工具应用于研究语料库，作为绘制DFL 2.0过程的方法，DFL 2.0是整个克里斯滕森资料整合的研究环境。DFL 2.0将纳入“即插即用”各种场景，这就实现了伯尔纳关于“当新的分析方法出现时，显宏镜应保持同步更新”的提议。在此过程中，我将探讨克里斯滕森在最后的抱怨中无意间列举的计算机应用的四个挑战领域中的每一个——收集和归档、分类、演示和导航、分析——突出每个领域的一些主要计算机挑战，并从民俗学角度提出了一些可以指导这项工作的基本理论前提。尽管我将要讨论的例子主要来自对克里斯滕森资料的研究，但与其他资料中的类似问题进行对比并不难。事实上，我们已经针对各种各样的语料库做了一些探索性工作，包括大屠杀基金会研究所的视觉历史档案（Shoah Foundation Institute’s Visual History Archive），谷歌图书（Google Books）收藏的北欧语言的书籍，十万个小时的晚间新闻隐藏字幕提要，与伊朗起义有关的多语言博客和推文，以及从大量与医疗相关的网站中筛选出的有关健康威胁的传言。不过接下来的工作必须限制在一定范围内，对广义计算民俗学来说并非包罗万象。尽管克里斯滕森的资料包括照片、草图、蜡质唱片、物质文化（如房梁）和罕见的书籍（如介于手写与印刷之间的《西普里亚努斯》），在目前的工作中，我们主要处理单一语言的文本资源。

　　挑战一：数字化和归档

　　计算民俗学最紧迫的挑战之一，是我们的许多研究资料都不是以可机读的形式存在的，一开始，克里斯滕森的资料也不例外。对克里斯滕森的回忆录和整个资料的状况进行的快速评估显示，几乎没有任何资源是电子形式的，绝大部分资料只能在丹麦民俗档案馆（Danish Folklore Archives）获得手写稿，即使是克里斯滕森已出版的作品也难以在皇家图书馆收藏之外获得完整的一套。资料调查为开发其电子版带来了第一个严峻的挑战，也就是说，许多目标资源不仅不是“天生的数字资源”，而且这些资源，或者是处于脆弱状态，即使是最温和的扫描方式，也难以保存；或者是存储在难以访问的档案中。扫描书面、摄影资源以及活动图像和声音资源的数字转化方法都已经很完善，这些一般被认为是“已解决的问题”，但这并不意味着它们不是困难、代价高昂和复杂的任务。

　　尽管我们最初的目标是《回忆与经历》，我们已经意识到它能够为绘制克里斯滕森资料随着时间产生的变化发展提供一个很好的基础；我们也意识到，任何这样的数字版本，都只是在开发整个资料的数字呈现之途上的婴儿学步而已。扫描回忆录是一个相当琐碎、无聊的工作，但扫描立即解决了光学字符识别的问题。此外，虽然光学字符识别在很大程度上是一个已解决的问题，但即使粗略地看一下谷歌图书中大量的光学字符识别数字文本收藏中的一本非英语语言书籍，也会发现这类书的准确性存在重大问题。对于克里斯滕森的出版物来说，这些问题还伴随着印刷厂使用的廉价纸张和墨水，使用德文尖角体作为一些已出版卷本的主要字体，以及克里斯滕森用自己的特殊方言记录和转录的一些故事。虽然我们能够较快地制作出回忆录的工作版本，但我们花费四年才有了修正和标记版的《回忆与经历》，作为我们数字资源的一部分。

　　尽管有这么多挑战，但回忆录的经验鼓励我们去扫描和光学识别克里斯滕森的所有出版物。虽然现在的数字版本并不像回忆录那样“齐整”，但它确实代表了此资料的一个重要方面，包括大约四万印刷页，如果这些材料的初始程序分块是准确的，那就包括了六万八千个个人故事记录。大家普遍认为，克里斯滕森只出版了约三分之二的手稿——我们的工作应该能够最终确认这一点，同时向更广泛的读者提供全部资料。一旦我们制作了一个相对整洁的回忆录版本，我们就会尝试各种方法为这个作品编制索引，从简单地利用Adobe Acrobat软件的内置索引，到为这个资料开发一个特定的文本编码标准标签集。考虑到我们的主要兴趣在于克里斯滕森多次田野旅行过程中记述的民众、地点、田野日记记录的模型，我们至少需要能够辨别人名和地名，并把他们分解为无歧义的列表，大致就是丹麦民间档案馆中手写的人名、地名索引（现在这些已经被扫描了，但因为它们是手写的，必定是人工转录的）。我们还想将这些地名与地理参照的历史地名索引相匹配，以便能够准确地将这些资料投射到地图上。最后，我们希望能识别日期，并且在日期不包含年份时，能够基于上下文信息针对这种不确定的日期提出解决办法。我们在努力描述克里斯滕森二百多次田野搜集旅行的详细路线时，发现日期特别有用。许多问题属于“命名实体识别”和“实体解析或消歧”的广泛类目，一般被认为是自然语言处理（NLP）中的“开放问题”。我们只部分成功地实现了回忆录的自动检测和分辨；很多流程都是“被监督”的，其中自动分配的解决方案必须经过手动修正，以达到合理的准确度。这一领域的发展令人鼓舞，民间传说语料库提出的独特而复杂的挑战，可能会吸引计算机科学家帮助我们完成这项出人意料的复杂任务。自然语言处理中的这些挑战延伸到故事本身涉及的地名，也影响了我们对其他语料库的研究工作。

　　数字化的第二个目标是田野日记资料，因为最终目标是开发一种基于研究者驱动标准的方法，以用于轻松导览资料。幸运的是，在哥本哈根大学民俗学中心，我们有一份田野日记缩微胶卷副本，就是霍尔贝克（Bengt Holbek）写作《童话阐释》时用的田野日记。不幸的是，这份缩微胶卷正在迅速变质，从它散发的淡醋味道就可得知。由于中心的缩微胶卷阅读器被盗，并且校方不愿意为中心购买新的阅读器，人文学院副院长提议对缩微胶卷进行数字扫描。不幸的是，最终获得的两万四千张tiff格式的图像被返回时，除了图像文件的序列号外，没有其他索引。我们一时有些急火攻心，后来一个廉价的现成图像数据库解决了这个问题，将扫描过程中创建的元数据附加到每个图像文件上，并以标准数据库格式（My SQL）存储文件的指针。这个简单的解决方案还允许我们自动分配页码，对应着克里斯滕森的特别的左/右页码编号系统，考虑到潜在资源中的重复编码和编码空白问题，我们随后就会对系统进行手动更正，并添加最初制作缩微胶卷时被忽略的缺页。

　　经过短短数月，我们从为一部现在看起来小得可笑的四卷本回忆录制作简单索引的理论讨论，变成了面对不断增殖的数字资源，这些资源不仅需要索引，而且需要适当的数据结构和安全存储手段。这一认识再次改变了研讨课举棋不定的方向，并促成了对我们正在使用的各种资源之间关系的广泛讨论。讨论的结果是，我们得以总结出资料的整体结构：田野日记和活页文件集成了未经编辑的歌曲、民谣、谚语、童话、传说、食谱、祈祷文，对日常生活的描述则是克里斯滕森无数出版的集子的基础。他从一个地方到另一个地方，与各种人见面和交谈，在许多次的田野旅行中收集到了这些材料。他在回忆录里描述了这些旅行以及他作为民俗学者的生活，这很大程度上依赖于他的信件，这些信件是他与同时代学者、教师、行政人员、政治家、朋友、家人，甚至是与他自己交往的记录。这个最初看起来不可思议的复杂资料的概念化，允许我们迅速设计出一个清晰的系统用于组织数据。这种组织的理论基础是，民俗总是由流传和贯穿于社交网络中的传统表达形式构成。这一非正式场景中的社会互动的基本概念，作为所有民俗资料的基础，经常在档案资源的研究中被忽视，尽管不该如此。事实上，如果人们把脸书（Facebook）当作一个动态的自我归档民俗资料集，就能意识到民俗概念化的重要性，并能解释脸书何以风靡一时。

继续浏览：1 | 2 | 3 |

文章来源：中国民俗学网
【本文责编：程浩芯】

上一条： ·[波丘斯]回归技术：民俗艺术的诠释维度

下一条：无

相关链接

·[刘欣朱堃]新质生产力驱动民俗学研究方法变革的内在机理与实践路径	·[邓启耀]相、义、法：民族艺术的认知与研究方法

·[黄景春]民间文学研究向田野要什么？	·[张建军]美国民众生活中心：数字时代的文化建档与公众参与

·[郭翠潇]国际档案理事会RiC档案著录标准对中国口头传统建档语境描述的启示	·[龙圣]现实与文献：作为研究方法的田野作业的两个向度

·[林海聪]图文共现的民俗档案：清代至民国时期妙峰山庙会的多元记录	·[吉国秀郭晓宇]知识图谱分析的可能性与民俗学研究方法的多元化

·[葛婷]观念与方法：郧西县孝歌手抄本调查研究	·[刘春艳]疫情下的田野调查：对民俗学研究方法的再反思

·[刘文江]“类民俗”与城市经验文化	·[林继富李晶]本土与西方：胡适民俗学研究方法的抉择与应用

·[专题]百年前的中国音声之美：走近劳弗录音档案	·“中国最初录音”，韵起独行之采风，“回归”于声音生长之地

·中国早期音声档案的数字化建档与共享：多学科视野下的劳弗特藏	·多学科视野下的劳弗特藏

·聆听百年前的“中国记忆”——“中国早期音声档案的数字化建档与共享”圆桌会议综述	·[圆桌会议]中国早期音声档案的数字化建档与共享：多学科视野下的劳弗特藏

·[分享会] 百年前的中国音声之美：走近劳弗录音档案	·[郭翠潇]计算民俗学