当然，在数据库结构中数字化和系统化民俗资料是不够的，以有意义的方式围绕资料进行探寻，需要的不仅是简单的查询工具。庆幸的是，现代数据库包含着发展良好的复杂关系结构和查询机制，已经远远超出了拉维塔（James LaVita）和林多（John Lindow）提出的早期重要民俗数据库的概念化。即便是这些最新的数据库系统的查询也在某种程度上依赖存储资料的已有特征，这些特征都与分类问题有关。

　　通常各种表达形式构成了资料的重心，这些表达方式的分类是民俗学中存在时期最长的问题之一。从格伦特维对民谣的早期分类工作，到民间故事的类型和母题索引，约勒斯（AndréJolles）的早期文类研究，普罗普（Vladimir I.A.Propp）、邓迪斯和霍尔贝克的结构研究，民俗研究的历史已经不可避免与分类问题相关联。鉴于民俗研究的比较性质以及伴随的分解、聚合和分类方法的必要性，这种联系是合理的。这也意味着它是学科的基本挑战和计算民俗学要解决的重要问题。

　　从信息检索的角度看，大部分民俗分类方案都存在一些基本问题，尤其是相对缺乏灵活性。通常，如果研究问题与分类器（classifier）匹配，民间故事“一个故事—一种类别”的系统就非常好用。因此，如果一个人正在寻找许多传统中的灰姑娘故事，那么ATU索引就很好用。在灰姑娘信息检索问题中，ATU 510a类指向一系列有特定人物和行动特征的故事，允许研究者迅速在属于ATU分类系统的资料集中发现故事异文。但是成功地使用像ATU索引这样的方案预设了两件事：首先，研究与分类器相匹配的问题；其次，感兴趣的一切都已经被一致且准确地根据架构分类。在极少数情况下，调用分类器会返回高度准确的结果，只有很少的无关材料。在信息检索的术语中，这些分类器具有非常高的精确率和非常低的召回率。换句话说，查询一个根据这些方案——类型索引、母题索引、类型分类词或本体论分类词（如美国民俗学会的民族志词库）等等——恰当编制过索引的语料库，将返回符合该分类的条目，且只有这些条目。当然，许多分类器都是基于树形结构，所以只需要举手之劳，就是通过上升一个级别然后再往下看下一组分支，就可以访问邻近的分类条目，这是应对返回结果太少的优质策略。大多数出版的民间文学作品集用的是主题索引，将同样的观察结果应用于这类主题索引的微观尺度，问题就略有不同，因为作品集的索引往往独具一格，不适用于编制出版物本身有限范围之外材料的索引。

　　如果研究问题没有与分类器匹配，那么这些分类系统就会失去作用，在这点上精确度和召回之间的权衡是没有意义的。同样，这些分类系统也不能很好地扩展。因为大多数民俗分类器都是手动应用的，不仅实施成本高，而且难以跟上数字资料规模的增长速度。根据ATU索引来分类十几个甚至一百个故事是一回事，分类数千个故事则另当别论。一个很好的例子就是克里斯滕森的资料，只有能够使用ATU系统分类的一小部分故事被分配了编号——甚至其中有许多分配是有问题的。

　　如果我们同意民俗分类器的目标，是通过集中分析识别目标语料库中的条目，同时捕捉那些被识别的条目和语料库整体之间的关系，那么在这种情况下，用于文本分类的计算机方法能够以一种综合方式解决这些问题。例如，某人可能有几个理由想要研究ATU 510a类型的故事。第一，他可能想要了解在特定传统群体中不同的人在不同时间演述故事所采用的异文形式。第二，他可能想要将这些演述与一般传统群体的童话故事演述，特别是那些故事讲述者的演述进行对比。将成为民俗学显宏镜——我们可能更想称之为“故事空间导航仪”——的一部分的复杂系统，能识别出与原初故事有某些共同特征的故事——无论这些特征是结构的还是语义的，是关于演述的还是讲述人亲历的——以及其他密切相关的故事。

　　对文本进行分类不是民俗学特有的问题，这已经是在过去十年有深入研究的领域。许多现有的未标记文本数据的计算机分类器依赖于加权文本矢量，通常利用TF*IDF（文本频率和反向文档频率）算法来描述语料库中的单个文本，然后这些矢量表征可被用于统计分类引擎，例如支持矢量机。尽管这些方法提供了很好的文本类同的第一层次近似值，但它们往往在民俗学分析所需的更精细层面上失灵。同时，被监管的矢量机机器学习方法和“朴素贝叶斯”（Naïve Bayes）分类算法往往最适用于比一般的民俗资料集更大的资料集。无监管的方法——例如备受吹捧的“主成分分析”（PCA）——不太适合文本分类，因为这个方法不容易掌握，结果也很难复制。

　　为了用现有的文本分类方法解决其中的一些问题，我们为克里斯滕森资料的一个小小的子集构建了一个多模态网络分类器（multi-modal network classifier）以探索这种方法的潜力。我们基于一系列“特征”为每个故事开发了一个矢量表征（vector representation）。因为民俗学者数年来已经花费了大量的时间和努力来分类资料，我们的方法包括作为特征集之一的这些现有的分类器，这是在民俗学计算机工具发展背景下的一个重要考虑因素。在数字领域没有必要采取非此即彼的方法，添加诸如现有的分类器方案的成本相当小，而收益可能相当大。另外，我们添加了简单的关键词作为特征，这些关键词源自整体语料库词汇的屈折变化形式表，并基于我之前对传统中“趋势”统计分析得出的资料浅层本体。最后，我们纳入了故事中提到的地名以及作为网络节点的故事讲述者的身份。然后，我们基于这些特征在代表故事、地点和讲述人的节点之间建立了联系。这种多模态网络方法的优点是研究者还可以决定哪些特征（和网络模式）包含在探索性研究中。当然，缺点是即使一个只有942个故事的相对较小的资料集，也很容易生成一个有2973个节点和52663个边界的网络。按照互联网的标准，这个网络是非常微小的，并且由于图表运算已被很好地解读，因此人们可以从中发现有意义的结构，要不然就只是一团乱麻。在其他工作中，我们已经展示了此方法在基于研究者驱动标准的资料中重新分类文本是多么有用，以及这种重新分类如何突出故事之间出乎意料的和其他未发现的相似之处。这个方法另一个优点是它的扩展性极好，可以自动执行大多数特征的发现。人们可以设想为每个条目添加几个其他特征，以利用自然语言处理（NLP）和其他学科的文本分类的优势。最近，大量关注都聚焦于未标记文本数据的主题发现上。我们探索了潜在狄利克雷分布（LDA）的应用，这是一个概率主题建模算法，它将一个语料库分解为一系列主题并根据文档中词语的潜在语义联系将文档分配给多个主题，本质上将每个文档都描述成一个主题混合物。这种方法有几个有趣的好处：不同粒度级别的主题（莫雷蒂的远读算法实例化）可以作为资料中的每个条目的特征被捕获，可能与主题建模的水平成反比加权，根据不同阈值加权就可以在共享主题的条目之间绘制边界。主题建模也允许人们迅速评估他们可能感兴趣的资料领域，以及在实施得当的情况下深入研究有关特定主题的潜在资源；这些文档集通过潜在的语义标准频繁跨越既存的分类器而相互关联。举例来说，将有50个主题的潜在狄利克雷分布应用于丹麦故事，就揭示出一个森林主题，这个主题从资料的许多卷中提取条目，并且跨越了许多克里斯滕森的已有类别。然后，人们就会问为什么这些故事包含森林主题。其他无监管学习方法，可以利用潜在的同等信息增益并且融入语料库的网络模型中。

　　另一个被寄予厚望的方法属于自动故事分解的范畴。当大多数其他自动分类器的工作停留在具体单词或共现单词概率的语义层面上时，这些算法则旨在发现文档中潜在的结构模式，并在更高的语义层面上聚合这些结构模式。这令人联想到结构理论在我们这个学科形成中发挥的重要作用，故事被分解为构成要素，然后把这些要素在一个结构层面聚合。例如，运用被芬利森（Mark A.Finlayson）标记为“类似故事合并”算法的初步工作，已能够从民间故事语料库中自动提取普罗普的形态结构。这种方法可用于识别叙事传统中的母题位（motifemes）词汇，还有在特定时间特定传统群体可接受的每一个母题位变体（allomotifs）的范围，因而此方法例示了邓迪斯的代数形态学，并为埃斯科罗德（Albert Eskeröd）的“传统主导”概念提供了试验台。虽然芬利森的方法专门针对叙事，但不难想象针对非叙事空间的其他算法，可以识别任何表达形式——如篮子、舞蹈或马铃薯饼——的结构等同元素，这些结构元素可以用作在民俗语料库的多模态网络模型中的另一种模式的基础。同样，在自动故事分解过程中发现的各种母题位变体可以作为另一级节点纳入网络结构主义分析模式中。网络分类器方法的附加性质很吸引人，因为它不仅允许所有民俗资料特有的复杂性的多层表示，还允许基于这种复杂性的模式的发现和质询。想象中的“故事空间导航仪”也与伯尔纳设想的“即插即用”结构相匹配，通过简单地将新的算法模块插入显宏镜的网络分类器部分来进行文本和网络分析，保证了研究环境能够跟上相关算法的快速发展。

　　挑战三：民俗语料库的视觉导航浏览

　　一旦理清了人、地方和事物之间的关系，并发现民俗资料潜在的时间线，我们就需要开发可在这个空间中导航浏览的系统。导航浏览必须是增值的，这样人们就不仅是在以前模拟档案的数字版本中盲目浏览——简而言之，我们需要可以找到模式并提醒我们的工具。传统民俗学研究依赖于对手写笔迹的辨认，对事物地点的记忆，使用有圆转盘的巨大橡木桌，而电脑可以用复杂的方式迅速可视化大量数据，我们可以从辨认手写笔迹所需的近距离视角到观察大范围地理模式所需的远距离视角，去探索资料的各个部分。民俗学显宏镜允许我们去利用这样的事实，即人类很擅长发现视觉模式，而设计良好的应用软件可以防止我们过度解释这些可视化模式。在计算机领域这类工作大幅增长，如数据和网络可视化、地理信息系统，关键在于如何利用我们在获取、组织和为研究资料提供动态标签方面已做过的大量工作。

　　民俗语料库的视觉呈现和浏览环境很可能是民俗学显宏镜的关键因素。如此，它必须做一些在模拟世界中无法做到的事情。它必须提供独一无二的档案资产的高质量访问，提供包括资料集在内的各种资产的空间呈现，并采用直观工具在资料集的不同方面快速选择和移动。理想情况下，语料库的浏览和变动的资料图景展示，会受到研究人员在浏览时所采用的有利视角的限制。我们工作的目标是让人们有进入资料集的不同入口点，以便他们能够探索人、地方、故事，以及克里斯滕森在创作该作品中的作用。人们浏览语料库时变换视角的能力，大可降低收集者中心观点的重要性，这种收集者中心观点往往在暗中引导了大多数民俗语料库的调查研究。

　　早期的民俗学者，如科隆父子（Julius Krohn and Kaarle Krohn），以及他们的学生阿尔奈（Antti Aarne）在创立民俗学的历史—地理方法时，就认识到了复杂数据视觉展示的力量。几年前，我建议开发一种“新历史—地理方法”。这个方法聚焦于探索民俗资料中的潜在地理—语义模式。多年来，地图在民俗学领域名声欠佳，部分是因为它们被用于查找原型，部分则因为它们是简化论者提供的过度简化的民俗数据呈现，这些数据不仅被简化为简单的点数据，而且其汇集方式抹去了个人在传统创造和传承中的作用。然而，地图可以用于展示语料库的各方面，包括个人和他们的作品之间的关系，搜集者、故事讲述者和当地环境之间的关系，以及特定地点的主题集中度。这样做，地图就有助于指导我们研究问题。

　　在丹麦民俗数据库中，地图扮演着重要的导航角色，允许人们迅速视觉化一个地区的主题分布情况，获得个人作品中的地名分布概观，更好地理解各自的流动性，以及看到克里斯滕森资料里的行旅路线。在数据库中，一个透明滚动条允许人们用当代卫星地图覆盖在历史地图上，以显示丹麦在过去一个世纪中不断变化的土地使用模式。在单一故事层面上，来自资料所属时代的地图能帮助定位故事中提到的地方，并且可用做叙述中的当地地形和地图绘制的环境二者关系分析的一部分。在最近的工作中，我们一直致力于借助地理信息系统（GIS）中可用的更为复杂的统计算法，将这些地图扩展为一种简单背景，以显示所分析环境的点数据，例如，一系列实验表明，相较于女性，男性讲的故事中提到的地方往往涉及更大地理范围，并且其主轴穿过一个由地名参照物界定的椭圆形，与两个最近的集镇之间的主要交通线相一致。我们还能证明，除了在公开演讲中克里斯滕森表明民俗搜集工作主要是在西日德兰半岛外，他还频繁集中地在日德兰半岛的北部和东部搜集民俗。在其他工作中，我们一直使用“热点图”（heatmap）作为视觉化主题集中度或伴随有趣结果的其他主题群的方法。例如，从已出版的克里斯滕森语料库中的三万个传说构成的语义网络识别出女巫故事，这些故事的热点图呈现了一个以格林讷斯莱乌（Grinderslev）为中心的女巫主题的重要热点。即使根据周围地区的人口密度做了修正以后，热点仍然显著。尽管没有故事提到格林讷斯莱乌这个地名，但在语料库中这个区域通过女巫主题被大量呈示。深入到故事和历史记录中能带来一个有趣发现。格林讷斯莱乌修道院是重要的布雷姆圣泉（Breum Kilde）的所在地，但是修道院在宗教改革后被弃用了。然而，圣泉仍然被认为有灵力，并且很快就和女巫联系到一起——至少在故事讲述中是这样的。确实，丹麦最后被烧死的女巫马兹达特（Anne Madsdatter）及其姐姐就是1686年在这里执行的。这对姐妹因为频繁使用圣泉而引起地方当局的注意，在审问过程中她们满口承认自己使用圣泉实施巫术。尽管焚烧女巫事件发生在克里斯滕森搜集活动的二百年前，但热点图显示，在大众想象中，格林讷斯莱乌周围区域以及布雷姆圣泉仍然与巫术密切相关。

　　当然，地图不是民俗学显宏镜中唯一可用的可视化形式。我已经展示了与资料空间的不同互动如何允许人们获取资料各方面的基础文档，如手稿图片和转录稿、故事讲述者的照片等。我们还尝试了其他语料库空间的呈现，如可浏览多模态网络呈现和多级主题建模（multi-level topic models）的可视化，其中每一个都是可以构成即插即用民俗学显宏镜的重要组成部分。但是所有民俗语料库空间的视觉呈现都要注意很重要的一点：尽管人类擅长发现视觉数据中的模式，但我们可能过于擅长这一点，而常被漂亮的图片诱惑，提出可能根本不存在的模式。如果没有相应的分析方法，即使最好的可视化也价值不大。

　　挑战四：分析

　　民俗语料库的计算机方法可以帮助指导分析并提供支持假设的证据。或许，民俗资料的计算机研究最让人激动的进路之一，是将社交网络上鲜活流传的民俗事象理解为民俗过程。社交网络分析（SNA）是一个迅速壮大的领域，部分得益于社交媒体非凡的商业成功。社交网络分析的最新应用显示出一类推文不同寻常的集中出现，其内容是关于科尼2012病毒式视频，源自亚拉巴马州、俄克拉何马州和印第安纳州的小城镇，并且在该视频广泛传播之前，已经在伯明翰出现了明显的聚集。对推特（Twitter）数据的分析帮助揭示了一些方法，一个资金充足的基督教组织——巴拿巴集团就使用这些方法推动“隐形的孩子”项目，该项目的创始人将其描述为“特洛伊木马福音派项目”（Trojan Horse evangelical project），仿佛这是一场草根运动。其他有趣的工作集中在社交媒体在伊朗起义期间传播和驳斥谣言方面所起的作用，其中如“坦克已经驶入德黑兰”（Tanks have rolled into Tehran）在推特上飙升，只是很快就被相反的言论驳倒。在民俗学研究中，霍华德（Rob Howard）已经开始根据人们在“母亲”网站（mothering.com）上参与讨论关于儿童接种疫苗阴谋的帖子来辨认他们的社交网络和语义分布。这项工作及类似的工作无疑将帮助我们加深对虚拟和真实的复杂社区中故事生命的理解。

　　这个拟议的民俗学显宏镜将允许人们构建资料的多模态网络呈现。因为传统的参与者包含在这个网络内，人们可以为每一个网络中的成员开发个人数据配置文件。对于基于故事的资料，数据配置文件会基于个人讲述的故事和他/她与传统区域内的其他人共享的故事要素进行计算。地点也可以用同样的方式加以数据配置。通过纳入时间作为网络呈现的一个特征，人们能够探索动态模型的系统，如果想要研究如谣言在社交媒体网站或整个博客圈的生命周期这样的问题，这种系统就非常重要。有了这种模型，人们不仅能追溯谣言开始出现的时间，还能追踪故事讲述者的类型和发生地点的类型。此外，人们能够识别故事小团体，故事在这个团体的人中频繁共享，但它们却对整个网络影响不大；反过来，人们还能识别“超级传播者”，这类人可能会触及和影响网络的大部分。这些分析方法仍处于起步阶段，人们只能推测未来的发展。为了能利用这些进步，民俗学者需要做好准备，既要增加计算机方法的培训和意识，也要有结构良好的资料集。

　　03 结语：计算民俗学者和该领域的未来

　　民俗学显宏镜的概念至少是一种强有力的启发，启发我们审视自己的研究方法和分析目标。设计这样一个工具——或者说一套工具——使得我们对使用大型语料库充满了非凡的希望。在民俗学显宏镜中，民俗潜在的社会本质变成了学习环境的基本特征。将人和时间地点联系起来并允许资料建立在这个基础之上，这种做法提供了一个复杂的动态民俗系统模型，该模型比那种顾此失彼的早期模型更加有用。确实，作为民俗领域特有的演述焦虑被这样一个系统缓解了，该系统考虑到了资料的整体性参与，不管它们是什么时候创建的。开发民俗学显宏镜殊非易事，但它为该领域带来了一系列计算机或者非计算机的重要挑战。计算机方法的明智探索和发展，在促进我们对人们如何与传统进行永无止境的辩证共舞，如何理解通过民俗为自己和彼此创造意义方面，将大有可为。

　　（本文刊发于《民族文学研究》2023年第2期，注释从略，详见原刊）

继续浏览：1 | 2 | 3 |

文章来源：中国民俗学网
【本文责编：程浩芯】

上一条： ·[波丘斯]回归技术：民俗艺术的诠释维度

下一条：无

相关链接

·[刘欣朱堃]新质生产力驱动民俗学研究方法变革的内在机理与实践路径	·[邓启耀]相、义、法：民族艺术的认知与研究方法

·[黄景春]民间文学研究向田野要什么？	·[张建军]美国民众生活中心：数字时代的文化建档与公众参与

·[郭翠潇]国际档案理事会RiC档案著录标准对中国口头传统建档语境描述的启示	·[龙圣]现实与文献：作为研究方法的田野作业的两个向度

·[林海聪]图文共现的民俗档案：清代至民国时期妙峰山庙会的多元记录	·[吉国秀郭晓宇]知识图谱分析的可能性与民俗学研究方法的多元化

·[葛婷]观念与方法：郧西县孝歌手抄本调查研究	·[刘春艳]疫情下的田野调查：对民俗学研究方法的再反思

·[刘文江]“类民俗”与城市经验文化	·[林继富李晶]本土与西方：胡适民俗学研究方法的抉择与应用

·[专题]百年前的中国音声之美：走近劳弗录音档案	·“中国最初录音”，韵起独行之采风，“回归”于声音生长之地

·中国早期音声档案的数字化建档与共享：多学科视野下的劳弗特藏	·多学科视野下的劳弗特藏

·聆听百年前的“中国记忆”——“中国早期音声档案的数字化建档与共享”圆桌会议综述	·[圆桌会议]中国早期音声档案的数字化建档与共享：多学科视野下的劳弗特藏

·[分享会] 百年前的中国音声之美：走近劳弗录音档案	·[郭翠潇]计算民俗学