历史文化资源大数据与分析技术
大数据是指数据量大,但究竟怎样的量才算大,目前并没有统一的定义。一般认为,大数据的数量级至少应该达“太字节”(TB)以上。因为达到了这个量级以上的数据,利用现有IT技术和软硬件工具将难以实现在可容忍的时间内,对其进行有效感知、获取、管理、处理和利用,必须要开发新的数据管理和处理软硬件技术,才能满足应用需求。
随着各类数字化文化资源信息的不断产生,各类数字化文化资源库的不断建立与完善,在客观上为我们建立了一个庞大的、具有大数据特征的数据库和资源库。这为我们进一步利用大数据分析等先进的信息技术手段,实现对这些文化资源信息的整合、梳理、分析、凝练,提供了前所未有的基础和条件。
其中,基于数字化的历史文化资源大数据是有计划地对各类历史文化资源数字化所形成的大数据信息。对这类数据的有效管理和充分挖掘、利用,或许是大数据及其分析技术最为重要的应用角度和需求。
1947年春天,一名牧童在死海附近的一个山洞里发现了一些残缺不堪的手稿。1948年至1956年间,研究人员又在死海西北基伯昆兰旷野陆续发现11个藏有手稿的洞穴。十多年间,考古学家发掘出近4万古卷残片,种类多达600多种。这些手稿大部分用希伯来文写在羊皮上,公元前二三世纪到公元70年间写成,记录了大量关于《圣经》和基督教起源的重要信息。这在近代考古史上非常罕见,被称为20世纪最伟大的考古发现之一。这就是著名的“死海古卷”。
利用数据处理技术,“死海古卷”机器近几年自动修复的效率,已经与数百人类专家过去一个世纪的成果相当。另外,梵高、勃鲁盖尔等大师画作鉴别精准度达到了95%以上。这些都是目前利用大数据分析技术进行画作鉴别、古文献修复、历史文物分析等取得的惊人成果。
中华文化与信息孤岛
一个国家、民族的文化资源是其文明发展的历史过程中沉积形成的独有资产,具有唯一性和不可扩展等特点。因此,具有不可估量的文化、经济和社会价值和意义,是代表一个国家文化软实力的核心内容和象征要素,也是各类文化艺术产品创作的基础资料和源泉。
青花瓷背后还有哪些我们不知晓的特点?手工织造对于现代工艺是否有所启发?经过几千年的文化沉淀,先辈给我们留下了无数的财富,但仅靠少数的专家一件一件文物的深究,对于进一步发掘文明成果来说,是否仍不成体系,不甚具体,不够全面?或者在这些文化瑰宝里,有着更多我们不了解的东西?
大数据分析技术在历史文化分析研究的成果,对于我们进一步加深对中华民族文明发展的历史,认知、辨识中华文化“基因”、延续文脉,明确我国文化建设应加强保护、传承和对外传播的重点内容,制定国家文化发展战略具有重要的意义。
第三次文物普查表明,现在在不可移动文物总数已经达到了76.6722万件;在可移动文物,预计在3亿件组的规模。每年我国有100个博物馆新增,平均三天就出现一个博物馆。目前很多博物馆、图书馆,以及非物质文化遗产保护组织与部门,正在以不同方式、为不同的应用目的,开展着对各类历史文化资源的数字化工作,客观上形成了一个前所未有的难得的中华文化资源大数据汇集。
但由于这些数字化资源分散在不同的单位、部门,且基本没有统一的格式标准,形成了一系列新的“信息孤岛”。出于各种原因,各自独守一摊,各类数据如果无法汇集到一起,也就难以充分发挥其应有的作用。
文化部民族民间文艺发展中心主任李松认为,传统文化资源数字化整备技术应用能力低下,体制机制制约使得资源碎片化,行政制约非常严重。国家文物局博物馆与社会文物司副司长罗静表示,在数据融合方面,信息的“孤岛”也是非常严重的。就海量数据来说,如果没有通过一定的融合、整合,其实它还是海量数据,而不是大数据。此外,文化数据整体框架上面也存在碎片化的状态。
文化与科技的共同任务
如何消除这些信息孤岛?如何有效整合各自整理出的数字化文化资源?如何利用大数据分析技术对这些资源的价值进行进一步的挖掘和利用?
在现行体制下,专家期望通过一定的技术手段,以及适宜的共享共建机制,构建一个实际或虚拟的数据交汇中心或平台,整合各类数据资源。以便在此基础上,进一步发挥计算机中文信息处理、模式识别、知识挖掘等大数据分析技术的优势,加强文化研究,促进我们对中华文化的认知和保护利用。
也正因此,面向各类文化研究、文化艺术创作、文化管理等用户提供更为优质、高效的信息服务,便成为了一个需要文化与科技相关领域共同探讨、推进的任务。
专家们认为,根据历史文化资源数据信息来源及其结构多元、主要应用领域、方式与用户多样等特点,面向历史文化资源管理的大数据分析系统,应是数据来源和应用端开放的,能够实现对数据提供相关主体和各类用户共建共享的数据管理平台。
为建立开放共享的数据交汇中心,需要建立技术系统构架,并需解决的四方面的技术问题:建立数字化标准;设计统一的跨平台中间件;实现高效的数据共享;加强对应用于文化资源大数据分析的基础技术的集成利用。
同时,加强各类数字文化资源的共享利用,不但需要有适宜的技术支撑,同时也需要面对应用需求和客观现实条件,加强顶层设计,在组织管理模式和保障措施上有所创新。
首先应加强对我国文化数字资源管理的系统规划。明确总体目标、任务和发展战略,提出有利于促进国家文化资源信息大数据管理利用的,由国家和社会相关机构共享共建的组织机制、商业模式和技术框架与标准。
第二可通过国家层面的文化资源管理与共享工程的组织,引导有关图书、文物、非遗保护部门以及各类文化企业、研究机构等有关单位和组织,共同围绕国家文化资源管理的发展战略和目标,开展各类历史文化数字资源库的建设,及其价值挖掘研究和综合利用产品开发。
第三可通过建立国家数字文化资源整合管理虚拟平台等方式,从技术上为各类、各源的文化资源大数据的整合、交汇和综合利用,以及安全维护、利益分配和知识产权保护等提供支撑。
第四是开展形式多样的应用示范,选择若干重点文化主题,组织开展系统深入的文化研究;并充分发挥市场和各类文化企业的作用,开展基于中国历史文化资源的,形式多样的文化、艺术服务产品开发,为提升我国文化产品的文化内涵和中华文化的国际传播力和影响力提供支撑。
“文化原动力是国家建设的基础性建设,需要科技部跟文化部共同有一些软研究在顶层设计上,然后在架构好的时候给科技一些力量,余下的由业界来做。”中科院自动化研究所研究员徐波说。
继续浏览:1 | 2 | 3 |
文章来源:人民网 2013年10月12日 10:44:45 【本文责编:思玮】
|