打印

大数据与数字出版

大数据与数字出版

  秦雯 《 中华读书报 》( 2013年10月30日 21 版)

  什么是大数据

  从2012年下半年开始,“大数据”成了整个行业提的最多的概念之一。来看看主流媒体、权威媒体、权威人士怎么评价大数据的价值和未来。我在网上选了四个比较认可的观点,一个是华尔街日报讲的,把大数据作为现在我们正在面临的三大技术革命(大数据和智能制造、无线网络)之一,也就是说我们实际上面临一个新的时代的到来。纽约时报对大数据在各个领域的应用也表达了乐观的观点,不仅是在商业和经济,而且在公共卫生、社会甚至政治领域。麻省理工大学的教授把大数据对整个社会生态的影响比喻成显微镜,这个比喻非常恰当,因为以往我们在业务过程中,在本身企业运作过程中,需要做数据分析的时候,只能找一些样本用户,这是很粗的。现在在互联网环境下,我们可以像显微镜一样,把用户在网上的行为放大到他只要上来做了任何一个操作我们都可以记录下来。最后是亚马逊CTO沃纳·沃格尔讲的,从他的观点来看,亚马逊的业务发展得益于数据分析非常多,他认为其他企业经常犯错误,就是因为他们用数据太少了。这是大数据时代的一些权威的评论。

  大数据时代是要有前提的,这个前提我归纳为三点,首先,是因为有互联网才有大数据,所以信息技术是最重要的。对大数据来讲,信息技术和信息技术的应用是它的一个前提。第二个前提,就是标准化的知识系统。我们知道如果没有一个大家普遍采用的知识系统,数据本身是混乱无章的,也很难利用起来。另外一个就是管理科学艺术,在绝大多数情况下,用数据做决策优于领导拍脑袋做决策,如果一个企业完全靠领导个人意志做决策,你数据分析再细,用得再好也没有用,因为他参与不了这个环节。把这三个前提条件分别赋予三个属性,一个是业务本身的系统性,因为我们是基于信息技术,基于互联网架构我们的业务。另外就是知识系统的标准化,还有一个就是管理的专业化。有这三个前提,我们才能进入大数据时代,否则我们现在只是在预热阶段,甚至是在玩概念阶段,泡沫阶段。

  很多出版社都在说自身很小,也没有什么大数据,但是,实际上我认为每家出版社甚至每个人都可以拥有自己的大数据。我们来看一家出版社的数据包括哪些范围和维度。目前所处在的互联网生态环境,从内部到外部,我们看出版社都在用哪些类型的数据,第一个就是ERP,数字出版也有ERP,比如出版系统、发行管理系统或者作者管理系统,这应该是ERP的组成部分。在EPR里面能产生什么数据呢?生产记录、财务记录、管理记录、资源统计,我们在企业业务运营过程当中消耗哪些资源等等。再往外是CRM层面的,CRM层面能够收集的数据有哪些呢?客户信息、客服信息、EDM记录,还有客户交付信息,比如有客户给我们发一个邮件来询问产品的价格,或者了解产品信息,如果进一步的话还有订单记录以及客户对产品的评价信息等等。

  再进一步,当企业把互联网用起来以后,就能看在官网上收集到的数据,有用户的注册信息、用户行为记录、网站的推广记录、用户需求信息、用户交易记录、用户评价信息、用户的转化记录、产品品牌信息、品牌认知信息等。如果你的网站上拿不到这么多东西,是因为你没有把网站设计到想去拿这些数据,如果你把网站功能设计到位的话,你是完全能拿到的。除了官网之外,出版社还可以在外部和一些合作媒体,或者其他电商平台开展合作,能够得到的数据就更多了。比如在外部要了解的信息可以包括目标用户的特征信息,就是我的产品针对的目标用户,他们是什么样的构成;还可以了解整个品牌在市场上的认知状况的信息,我们可以通过官方微博或者官方博客了解用户对这种自媒体形态的平台的访问行为等。我们还可以了解什么呢?还可以了解比如说现在的社会化平台上对我们口碑的评价和影响,更可以了解在外围我们的竞争产品和我们整个所处的行业发展的动态信息……这些都是我们在所谓的大数据市场,或者在数字化这样的生态环境下应该也可以去收集的数据。

  在这样的一个过程下面,其实每个大筐是包含小筐的,出版社可以自己不做官网,而是依托互联网上某一个平台服务商,把自身对外的推广和传播建立在它的平台上。最典型的是有些出版社到京东上去开书店,或者利用淘宝平台。甚至我们可以不做自己的CRM系统,也可以借助互联网上这样的服务商,比如美国有一家特别有名的公司就是做在线的CRM服务,甚至我们自己不做ERP,也可以享受类似百度、阿里这样的公司给我们提供的云服务,所有这一切都是基于互联网。但是,对于大型企业来讲还是需要拥有自己的平台的,因为大型企业的业务更复杂,比如出版集团有各种各样的产品品类,但是其中一些品类可能在互联网上很难有平台,其搭建机构正好适合你的业务,所以还是需要有自己的平台。

  在这样的结构下,数据量会越来越大,所谓“大”,一方面是量大,哪怕我们是一个小企业,如果把成立第一天开始的数据积累到第一百年,也会是非常庞大的一个数字。另外,就是数据复杂度越来越高,我们需要去收集和保存、应用不同类型的数据,有生产环节的,有营销环节的,有宣传环节的,有推广环节的,有用户的,有供应商的等等。所以所谓的大数据不一定是TB级上或者PB级的才是大数据,不在于量上,而是在数据的完整性上。

  现在,我们可以归纳一下,什么叫大数据。大数据对于企业来讲,实际上是经营过程和经营环境产生的数据总集。至于用什么技术和什么算法处理它,这是因业务而异的。我们可以不关心这个数据是怎么存储的,甚至也可以不自己处理这些数据,但是最重要的是要把自己的数据用起来。

  大数据与出版企业网站

  出版企业的网站应该怎么把自己的数据用起来?我曾对覆盖的100多家新闻出版行业网站做过分析,发现了一些问题。

  首先说建站目的,这是一家出版企业在战略层面要思考的问题。比如有的出版社做网站是为了逐步整合内部外资源,做好企业的转型,因为数字化是一个不可逆转的趋势,我们每个企业、每个人未来都是要在数字化社会里生存。其次,有些出版社也很明确,做网站就是为了做电子商务,为了促进产品销售。还有一些出版社做网站是为了建立一个更高效的培育、发展、维护客户和用户的平台,这个也是对的。

  在这个战略目标上,不对的是什么想法呢?没有明确的目的,因为其他出版社都在做,所以我们也要做,我也不知道要这个网站干什么,其实还有很多数字出版行业的企业网站表现出这样的特点,你能够从它的网站结构看得出来,他自己都不知道要做什么。第二,网站只是出版社的宣传窗口,是一个电子版的宣传册。第三,网站针对目标用户定位不明确,做这个网站不知道要给谁看,比如我看到很多数字出版企业,尤其是大企业,网站上会把他们企业的领导人的活动、企业的员工活动、企业给用户应该提供的信息全都堆在一起,或者企业给供应商的信息等。其实一个网站的受众应该是很明确的,比如你的网站是想为读者提供服务的,就要针对读者的需求建站,如果还想为发行商提供网络服务,那不妨做另外一个网站,因为这两个用户群的诉求是不一样的。

  做的比较好的就是在资源配置上,做网站一定要有自己的人才,基本包括三个方面,一个是产品人才,这个产品不是说图书编辑,而是网站产品,比如网站要开一个少儿图书频道,你要找一个会做少儿图书频道设计的人才。其次是技术人才,再一个是营销人才。不一定每个网站都要去挣钱,但是网站是要经营的,每家出版企业是要去挣钱的。没有这三种人才,我建议网站缓做。

  现在出版行业网站存在一个很大的问题,很多网站是找外包团队开发,然后自己有一两个岗位来维护,这样的网站是做不好的。我觉得这是传统行业进入互联网的时候面临最大的问题。不过有些大型企业其实已经过了这个时期了,就是找专业的人来做自己这块业务,这个很重要。人才是我们把网络业务开展好的前提条件、必要条件,如果你还没有,你又不舍得花钱去请,那就先别做,等你有了再说。但是话说回来了,因为市场环境这样,等你有了,已经来不及做了,市场被别人抢走了。跟人才相关的就是资金,人才投入和资金投入要有保证,这个网站才能做好。有次有家大出版社的网站负责人对我讲,他们企业的网站归属经常变,上半年在市场部,下半年在行政部,自己都不知道该怎么办。从这点来讲,就是这个出版集团领导没有充分认识到网站建设的重要性。

  下一步,我们决定要做网站,前期的市场研究很重要,要把我们的目标用户、产品需求和服务需求摸透,再来做。这块不是拍脑袋就能做起来的。市场研究也不是做一次就完了,在这个过程当中我觉得市场研究是前期的数据准备,然后在网站运营过程中还要根据网站数据来对产品策略和运营策略不断调整,这个网站才有可能是比较健康地往前走。

  再一个,就是有没有运营管理规则,很多网站我们看到内容一个月都不更新一次,大家的业务不同,其实对内容更新要求是不一样的。比如新闻类网站,肯定要求每天更新。但是,一个出版类网站,可能保持一个符合业务规律的更新频率就行了,但是不能不更新,因为不更新的话,用户第一次来看是这个东西,他下次来看还是这个东西,第三次就不来了。所以任何一个网站对内容更新的频率和数量多少还是应该有些要求的,这个是多少呢?是根据业务特点来定的。

  再一个,就是网站本身运营发展目标,不是经营发展目标。这个运营发展目标就是这个网站上线到网站逐步往前走,我希望用户实现怎么样的成长,用什么指标衡量这个用户是优质用户,或者这个用户是新拓展的用户。要制定网站运营的KPI。

  还有就是很多网站做起来了,也有内容更新,但是只是一个信息发布平台。网站要吸引用户的话是要策划很多在线活动来吸引用户参加的。这个在线活动有时候未必一定是广告,比如很多汽车网站做车友会,数字出版网站为什么不做读书会呢?让用户把这个网站用起来,想办法让用户在这个网上活跃起来,是需要经营的,网站不是把平台搭好了,把发布系统做好了,把内容发出去就完了。

  最后一个就是推广,我相信大部分传统企业对互联网不熟悉,很怕去做一个网站的流量推广。但是一个网站做起来以后,如果在线不推广,很难起到用户增长的目的,当然不同网站的用户规模不一样,但是肯定都要做推广的。最基本的推广就是搜索引擎优化,这只是基础,我们还是需要走出去,在线上用各种各样的渠道去把网站推广到目标受众中。哪怕你的目标受众因为你的业务天然关系决定只有一千个人,我们的目的也是把这一千个人都发展到我们网站上来,成为我们的网站用户。

  怎样应用大数据

  那么该从哪些方面用数据?四个方面,一个是网站运营,另外是网络营销,还有电子商务,最后一个是数据挖掘。

  我们看一下网站运营,互联网在中国已经有17年历史了,商业性网站还是积累了很多大家可以借鉴的东西。我做了一些归纳,希望能给业内人一些参考。在运营上首先要用数据设定目标,这个月要增长多少,因为我在新浪干过,当时我们的考核目标就是本频道占比全部是50%,就是本频道每个月流量增长20%,但是这个20%不是每个频道都有这个要求,我当时是做视频,视频是新频道,所以要求增长快一些,新闻就不会这样要求,因为新闻比较成熟。另外50%是跟你和其他频道相关的,我们每个页面上除了有正常我们要发布的内容,还有很多推广位,这些推广效果怎么样,也会纳入到里面,这是很具体的东西了。所以,把目标设定好了以后,我们要做的就是过程控制,我们随时看数据变化,去发现网站运营当中存在什么问题,去有针对性地改进这些问题,最后要阶段性地进行效果评估,看我们用这样的设计或者用这样的功能,用户是不是满意,哪里需要改,是不是需要重新做,有没有这种新增产品的需求……这个可以做阶段性的。

  这三步完了以后,随着数据的积累,反过来对前面我们说的这两点,就是“为什么做”和“做什么”来进行调整,不一定说我的战略定位一开始想的就是对的,经过一段时间运营之后,我们发现其实还是可以修正的,尤其是策略上。当然,战略定位相对比较窄一些,因为战略定位跟你从事的行业和你的资源优势有关系。策略定位,要在运营过程当中,随着数据的积累和对运营的监控去把握。

  在网站发展不同时期有不同的关键KPI,一个网站在初创时期,刚刚上线,要做的工作主要是推广,去发展新用户,这个时候可以用新访问用户量或者注册用户量来衡量。成长期,企业到了一定规模,这时候要考虑用户体验和推广效果,这时候除了看用户量以外,还要关注另外的指标,就是回访用户情况和活跃用户情况,你的用户在你的网站上不活跃,实际上还是没有质量的。到了成熟期,已经是一个成熟平台了,这时候更重要是看用户黏性,要去了解产品品质对用户的影响。数据在不同时期有不同的应用方式。

  通过数据挖掘还能做到什么?还能够定义每个用户的各种偏好,举个例子,在亚马逊中国上经常有这样那样的推荐,注意一下你会发现,喜欢买莫言的《丰乳肥臀》的读者,还喜欢奢侈品,这是更丰富的关联。

TOP