常 政 《 中华读书报 》( 2013年01月16日 18 版)
在互联网界,随着云计算技术的普及,“大数据”自2012年越来越被更多的人提及,进而被言之我们实际已经身处一个“大数据时代”。所谓大数据,在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。对于它的影响,哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
被誉为“大数据商业应用第一人”的维克托·迈尔·舍恩伯格表示,大数据带来的信息风暴正在变革我们的生活、工作和思维。
本文要介绍的是全球复杂网络研究权威艾伯特-拉斯洛·巴拉巴西通过其新书《爆发——大数据时代预见未来的新思维》所展示的基于大数据基础上的一项有趣研究——能否预测人类行为模式?在当下时代,我们平时的移动电话、网络以及电子邮件使得我们的行为变得更加容易量化,这就带来一个巨大的机会,艾伯特-拉斯洛·巴拉巴西说:“人类正处在一个聚合点上,在这里数据、科学以及技术都联合起来共同对抗那个最大的谜题——我们的未来。”
《爆发》全书的主题是“预测”,并别出心裁地采用了两条线索来阐释:科学探讨和历史故事互相交织,显得非常有趣味。故事讲的是匈牙利十字军的一段历史,这段历史被那个时代一个叫泰勒格迪所“准确预言”。故事的主人公叫赛克勒,受到主教之命,征召农民组织十字军,并与贵族军发生内讧从而走上了起义之路,最终兵败被擒。
通过这个历史故事,作者试图表达这样一种可能性:如果泰勒格迪能够预测16世纪发动十字军的结果,那我们这些500年后的人类难道不能用科学超越他吗?尽管目前从社会预测的层面还是迷雾一团,但人类日常行为总是有很多重复,以至于很多时候都可以预见。那么根据现有技术条件(比如LBS、电子支付、SNS、电子邮件、视频监控等等)采集的人类行为数据,作者的结论是什么呢?
艾伯特-拉斯洛·巴拉巴西说:“当我们将生活数字化、公式化以及模型化的时候,我们会发现其实大家都非常相似。我们都具有爆发式,而且非常规律。看上去很随意、很偶然,但却极其容易被预测。”所谓“爆发”,就是说,我们的工作和娱乐及其他种种活动都有间歇性,会在短期内突然爆发,然后又几乎陷入沉寂。这多么得贴近 我们的现实啊,想想我们的减肥或者戒烟计划和仅用了寥寥几次的健身卡…… 作者以他的发邮件经历为例,说:“人类行为是随意的话,我的电子邮件流就会均匀分布。不过,我的通信情况并非如此。相反,不管是哪一天,在长时间没发邮件之后的一小段时间内,我就会发送大量邮件。事实上,不管在哪天进行检查,我的邮件次序都不是随意的,从来都不是。相反,它们往往充满了爆发点(bursts)。”
此时,可以更加深入理解作者为何要将主人公赛克勒的历史故事作为另一条线索、将科学和历史混在一起了。在作者看来,赛克勒是一个过快用光自己燃料的爆发点:“从他起义到被俘不过短短三个月,从历史角度看那犹如一瞬。但这几个月多么重要,多么精彩啊!他来自底层,然后几乎爬到了顶层。”
如果用一个学术名词来描述这一现象,就是“幂律分布”。对于它的研究做出重要贡献是1932年,哈佛大学的语言学专家Zipf,他在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布也被称为Zipf定律。也许这样描述有点抽象,但熟悉互联网的人都知道“长尾理论”以及那条数学坐标系中画出来的一条“长尾”式的曲线。没错,这就是幂律分布。
幂律分布的奇特作用在于,它在解释人类、自然现象具有某种普适性,电子科技大学周涛教授在《爆发》中文版序言中列举这一现象时说:
●打游戏的间隔时间是幂律的;
●地震的间隔时间是幂律的;
●地方访问频数分布是幂律的;
●地点停留时间分布是幂律的;
●旅行距离分布是幂律的;
●个人财富分布是幂律的;
●社交网络上朋友的数目是幂律的;
……
如此之类,不一而足。当然,身处一个活色生香的社会里,仅仅知道人类行为遵循幂律是不够的(这个规律在学术界本身也尚存争议),我们希望知道更多,更精准:比如一部《1942》电影上映,是否能精准预测未来的票房来辅助影视投资决策等等。人类无限制的欲求,总是渴望预知甚至控制未来发展的脉络。但理想或欲望是一回事,从原则或者科学本质上讲,人类行为能否被预知呢?哲学家波普尔认为,对于“完全孤立、静止不动的以及周期性的体系”进行长期预言是可能的,而“人类社会”不属于这个范围。但波普尔并没有给出人类社会不可预测的有力论证,艾伯特-拉斯洛·巴拉巴西对这个问题,认为未来存在两种可能性:
●出现一个类似海森堡不确定性原理的定理,告诉我们预知未来完全不可能。
●受到商业利益的驱使,预测工具会不断完善,尤其是将人类行为量化的工具。这些工具对于短期预测(几分钟到几小时)取得突破性进展,完全是有可能的。
总体来说,本书作者倾向于认为纷乱复杂的人类行为存在一个隐藏的预测模型的。当然了,无论这样的模型是否真的存在,人类或者是因为利益,或者是因为好奇,绝对不会遏止都对它的孜孜探索,而大数据时代的来临,无疑正在引燃这一探索行为的导火线。
《爆发——大数据时代预见未来的新思维》,[美] 艾伯特-拉斯洛·巴拉巴西著,马慧译,中国人民大学出版社2012年8月,59.90元