匿 铭 《 中华读书报 》( 2013年01月16日 17 版)
先来看两个与数据挖掘有关的小故事。
首先出场的人物是萨姆·沃尔顿,沃尔玛的创始者,他创立的全球最大零售企业得到了来自全球范围的持续的赞誉声音,他也提出了不少营销理论上的关键词语,比如“日落原则”、“十英尺态度”、“女裤理论”等等服务理念与销售策略。总之,他使得沃尔玛在营销领域上曾经风光无限,目前也依然雄踞领域前列。那跟数据挖掘有什么关系?当然有,沃尔玛曾有一段关于“啤酒与尿布”的故事。那时还在遥远的1983年,沃尔玛开始与休斯公司合作,发射了人造卫星,投入6亿多美元建立了电脑与卫星系统,还发明了条形码、无限扫描枪、计算机跟着存货等当时很新鲜的技术。在技术的帮助下,沃尔玛的数据库很快积累了海量的经营数据,包括大量的顾客消费行为记录。当年的圣诞节来临前夕,沃尔玛人正在为即将到来的购物节日制定策略,他们使用了一种名叫“购物篮分析”的软件,这个软件分析来分析去得出一个让人瞠目结舌的结论:跟尿布一起购买的最多商品居然是啤酒!
电脑没坏吧?当然是没有的。这就是软件应用数据挖掘技术对历史数据分析得出来的结论,接下来的问题就是结果符合现实吗?有没有利用价值?接下来,沃尔玛的分析师深入研究之后得出了美国人的一种行为模式,那就是年龄在25-35岁之间的年轻父亲在下班后需要去超市给婴儿买尿布,而他们其中的30%-40%的人会顺手为自己买几瓶啤酒。接下来的事情你懂的,沃尔玛当然是将本来距离很远的妇婴用品区和酒类饮料区拉近了距离,并采取了捆绑销售等等策略。这又变成了教科书上的一个案例。
第二个故事的主角是派克汉尼汾公司。这是家世界一流的工业企业,总部在美国,早在上世纪70年代已经成为全球控制领域最广、产品种类最完备的公司。这类公司每年开销最大的费用之一就是对已售出产品的售后维修费用,高达一亿美元。常规的解决思维是什么呢,增加研发经费,提高产品质量,就可以降低维修费。这是教科书上一定会给的答案,所以这种答案也只能在教课书上生存。因为以当时派克汉尼汾公司的技术来说,他们的产品质量已经达到了较高标准,再投入并不是最优选择。所以他们用了数据挖掘的办法。他们研究一种干燥器,这种机器内部有1200多种零件,常坏的贵重零件有20种。每次更换贵重零件当然导致公司的维修费用上升,通过数据挖掘,分析师们发现,价格昂贵的零件寿命是与少数几种便宜零件的磨损有关。换句话说,如果定期更换便宜零件,将提高贵重零件的使用寿命。
这就是数据挖掘的妙处。小挖掘,大收益。
《大话数据挖掘》这本书讲的就是这个道理,如何采用最小的挖掘代价去获得最大的收益。对企业而言,数据收集了不会处理不会分析,宝藏就变成了垃圾山。数据就是数据,它就只是客观实际的一种反应,只有明白数据力量的人才懂得运用数据挖掘的思考方式,将力气集中在决策时期。所以本书作者写了一本推广读物来对数据挖掘进行普及,书里内容涉及到数据挖掘有关的算法、分析思维、流程、应用等等,对于不甚了解数据挖掘的人值得一读。
《大话数据挖掘》,西安美林电子有限责任公司著,清华大学出版社2013年1月,39.00元