大数据进行时：聚光灯后的四大推手

这是一篇来自留英信息工程博士周文哲（@Wennie文哲）的一篇投稿，她于去年创业成立幸福佩智公司，专注于提供 Hadoop 的大数据处理与分析解决方案，产品已被应用到互联网广告、物联网等行业。

“大数据”这一话题在国内从今年起受到投资者追捧，也不断有高技术人才选择这个方向创业；但实际上国外对于“大数据”，已经走过了概念炒作阶段，出现了实际的应用，产生了实际的效益。周文哲这篇投稿，为我们详细揭示了大数据盛行背后的原因，以及大数据在国外发展的情况。

“忽如一夜春风来，千树万树梨花开”是唐朝的诗人岑参描写西北边塞早雪奇景的诗句，用来形容大数据的盛行，莫不为过。就在几个月前，大数据似乎还只是一个遥远的话题，短期内就“如一夜春风”吹来，在各种媒体、论坛、甚至政府战略中频频露脸，那么，是什么推动了它的盛行呢？这些聚光灯背后，又有着怎样的故事？本文我们将从行业发展、应用普及、技术进步、金融和政策鼓励四个方面来探讨大数据的幕后推手。

推手一：数据的迸发

大数据的概念或许大家并不陌生，“大”字不仅意味着数量的庞大，还代表着数据种类繁多、结构复杂，变化的速度也非常快，这些特征的出现与互联网的发展息息相关。从搜索引擎、社交网络的普及到今天人手皆是的移动终端，互联网上的信息总量正以每年 50% 的增速不断膨胀，其中 90% 的信息来自近三年，包括每个月 Facebook 上分享的 30 亿条内容，每天 12 TB 的 Twitter 信息，每天淘宝上超过 30 亿条店铺、商品浏览纪录及上千万的成交、收藏纪录等等。据 IDC 统计，2011 年全球所产生的数据总量是 1.8 ZB（10 的 21 次方），如果把这些数据刻录到 CD 碟片中，其摞起来的高度等于地球到月球的距离！

数据不仅在“量”上疯狂的增长着，在“源”上也不断的丰富着。目前世界上产生的数据，有近 80% 是由个人用户产生的；据估计，到 2020 年全球将有 500 亿个设备连入网络，地理位置、网络浏览行为、健康数据、甚至基因信息等，都成为技术为个体服务的有效资源，这也意味着商家对每一个用户都将有精准的了解，真正做到与客户的“零距离”接触。正是这种巨大的商业利益的驱使，使得大数据成为国际一流企业竞相投入使用的竞争利器。

推手二：应用的普及

今年年初，美国一名男子闯入了他家附近的 Target 店铺（Target 是一家美国零售连锁超市）。“你们怎么能这样！”男人向店铺经理大吼到，“你们竟然给我 17 岁的女儿发婴儿尿片和童车的优惠券，她才 17 岁啊！”店铺经理不知道发生了什么，立刻向来者道歉，表明那肯定是个误会。然而，经理没有意识到，公司正在运行一套大数据系统。一个月后，这个愤怒的父亲打来电话道歉，因为 Target 发来的婴儿用品促销广告并不是误发，他的女儿的确怀孕了。

诸如此类的应用，在国际零售行业巨头中已屡见不鲜，我们以 Target 作为首例，是因为它的案例的确留给人强烈的印象：数据的力量，不仅让商家提升了自己的业绩，还让客户为之心甘情愿买单。Target 创建了一套女性购买行为在怀孕期间产生变化的模型，不仅如此，如果用户从他们的店铺中购买了婴儿用品，Target 在接下来的几年中会根据婴儿的生长周期情况定期给这些顾客推送相关产品，使这些客户形成长期的忠诚度。

实际上，诸如沃尔玛、Tesco（英国零售巨头）等巨头已从数据中获得了巨大的利益，也因此巩固了自己在业界的长盛不衰。以 Tesco 为例，这家全球利润第二大的零售商从其会员卡的用户购买记录中，充分了解一个用户是什么“类别”的客人，如速食者、单身、有上学孩子的家庭等等，并基于这些分类进行一系列的业务活动，比如，通过邮件或信件寄给用户的促销可以变得十分个性化，店内的上架商品及促销也可以根据周围人群的喜好、消费的时段来更加有针对性，从而提高货品的流通。这样的做法为 Tesco 获得了丰厚的回报，仅在市场宣传一项，就能帮助 Tesco 每年节省 3.5 亿英镑的费用。

在互联网行业，大数据更是为电商、广告商们提供了丰厚的回报。雅虎于 2008 年初便开始启用大数据技术，每天分析超过 200PB 的数据，使得雅虎的服务变得更人性化，更贴近用户和客户。它与雅虎 IT 系统的方方面面进行协作，包括搜索、广告、用户体验和欺诈发现等。AOL 也设立了 300 节点的服务器集群，将在其下属系列网站（如 AOL.com、Huffington Post、MapQuest 等）中每天 500TB 的用户浏览信息收集起来，分析和预测这些用户的行为，以便有针对性的为每个月 1.8 亿独立用户进行个性化广告服务。

于亚马逊（Amazon）而言，数据技术的应用更是为其成为一家“信息公司”，独占电商领域鳌头奠定了稳定的基础。为了更深入的了解每一个用户，亚马逊不仅从每个用户的购买行为中获得信息，还将每个用户在其网站上的所有行为都记录下来：每个页面的停留时间，用户是否查看 Review，每个搜索的关键词，每个浏览的商品等等，在亚马逊去年 11 月推出的 Kindle Fire 中，内嵌的 Silk 浏览器更是可以将用户的行为数据一一记录下来。这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解，对于其货品种类、库存、仓储、物流、及广告业务上都有着极大的效益回馈。

数据技术的应用不仅在零售和互联网行业获得极大回报，其带来的经济价值使得各行业均为之“竞折腰”。在能源行业，Opower 使用数据来提高消费用电的能效，并取得了显著的成功。作为一家提供 SaaS 服务（软件服务）的创新公司，Opower 与多家电力公司合作，分析美国家庭用电费用并将之与周围的邻居用电情况进行对比，被服务的家庭每个月都会受到一份对比的报告，显示自家用电在整个区域或全美类似家庭所处水平，以鼓励节约用电。Opower 的服务以覆盖了美国几百万户居民家庭，预计为美国消费用电每年节省 5 亿美元。

最值得一提的是生物信息行业。生物信息是继互联网行业之后数据迸发最迅速的行业，并将远远超过互联网产生的数据：人类用 0 和 1 创造了虚拟世界，而造物主用 A/C/T/G 四种元素创造了万物生灵，生命的产生、发展、消亡的奥秘尽在其中。随着测序技术的发展，全基因组的测序价格由十年前的上亿美元降至今天的数千美元，这使得更多人、物种的 DNA 信息的获取成为可能。个体全基因组信息的获取，使得个性化诊疗服务成为可能。在美国华盛顿大学，研究人员通过对一位白血病患者的基因信息进行分析，成功的找出了导致癌细胞迅速扩散的致癌基因，并发现了能够阻止该基因产生作用的药物，有效的延长了患者的生命。

诸如以上的应用，在悄无声息的进行着，是数据带来的市场价值推动着一切的进行，亦构成了“引爆”大数据产业发展的第二个推手。

推手三：技术的发展

技术与应用之间从来就是相辅相成的关系：应用的实现需要技术的支撑，而技术的进步能推动应用的普及。在以上实例应用的背后，是大数据技术让一切成为了可能。本文中，我们所指的大数据技术，主要是以 Hadoop 为代表的非关系型数据库系统及分布式运算架构，在这一部分，我们将简要介绍其发展背景。

上世纪 60 年代末关系型数据库技术的出现使得数据能按照固定的结构进行存储，方便用户根据数据属性进行查询的同时，也使得管理大为简便。然而，数据量的爆发增长和数据结构的多样性，不仅要求能快速录入、提取海量数据信息；还要求数据库随着数据量的增加而灵活扩展、数据存储不局限于固定的结构。这时，传统的关系型数据库技术已无法满足这些需求，于是，NoSQL 技术在上世纪末期开始出现。

然而，非关系型数据库技术一开始并未得到广泛应用，直到 2009 年，在搜索引擎、社交网络等互联网应用盛行使得数据量迅猛增加后，才开始为人们所重视并投入使用。发展到今天，NoSQL 技术已经形成了一系列不同用途的数据库管理系统，如 BigTable、Amazon DynamoDB、Hadoop/Hbase、Cassandra 等列族存储系统（Wide Column Store），MongoDB、CouchDB 等文件存储系统，Neo4J 等图形数据库系统。由于列族存储系统支持多种类型的数据存储，目前应用的范围最为广泛。

2004 年初，Google 开始研发 BigTable 非关系型数据库系统，它是建立在 Google 文件系统之上的一种压缩的、高扩展的数据库技术，可以让 Google 对于自身新增业务处理进行低成本的扩展。8 个月后，BigTable 开始投入内部使用，后来被广泛应用于一系列的 Google 应用中，如 Google Reader、Google Earth、Google Maps、Gmail、YouTube 等等。为了解决海量信息的计算问题，Google 又研发了 MapReduce 的并行计算技术架构，使得 T 量级以上的数据可以并行处理，并通过 BigTable 来存储和更改资料，有效的支撑了 Google 日益增长的数据处理任务。而 BigTable 这一模型，启发了众多“后来者”的数据技术。

Hadoop 便是其中一员。这个由 Yahoo！的前员工 Doug Cutting（现任职于 Cloudera 公司）最初负责开发的项目，已成为大数据行业的技术中心。Hadoop 是由一系列开源技术组成的分布式架构，包括 Hbase 列数据库系统、MapReduce 并行计算框架、HDFS 分布式文件系统、Mahout 算法库等等，由于其扩展性高、数据种类灵活、成本低，Hadoop 被广泛应用于各行各业，包括互联网、生物信息、物联网，甚至美国宇航局 NASA 也用 Hadoop 来处理从宇宙望远镜中传回海量无线电数据，其数据量达到每秒钟 700TB!

2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司，为合作伙伴提供 Hadoop 的商用解决方案，其中包括 IBM、甲骨文（Oracle）、微软EMC、Teradata 等行业领先的数据解决方案提供商，使得 NoSQL 技术成为现存 SQL 数据解决方案的强有力补充；众巨头纷纷推出相应产品，来适应其客户数据业务的爆发增长，如 IBM 的 InfoSphere BigInsights，甲骨文的 BigData Appliance，EMC 的 GreenPlum 等等。Cloudera 公司的产品使得开源技术有效的为商业客户提供服务，而其创始人 Jeff Hammerbacher 亦被福布斯评为美国 30 位 30 岁以下科技领域的明日之星之一。

目前，Hadoop 技术以及被广泛应用了各大互联网公司，包括 Facebook、亚马逊、苹果、AOL、Ebay、Twitter、Netflix、淘宝、百度等等；在生物信息行业中，也初步得到了应用，如大型制药公司提供研究服务的 NextBio 公司，设立了 100 个节点的 Hadoop 集群来帮助制药公司进行基因研究。先进技术的发展为企业提供了高效使用数据的便捷工具，是促进大数据行业发展的第三大推手。

推手四：金融与政策的鼓励

行业的发展，除了市场需求的驱动、技术水平的进步，还离不开资本与政策的瞩目。据麦肯锡报道，大数据已经实现了显著的经济价值：为美国的医疗服务业每年节省 3000 亿美元，为欧洲的公共部门管理每年节省 2500 亿欧元，为全球个人位置数据服务提供商贡献 1000 亿美元，帮助美国零售业净利润增长 60％，帮助制造业在产品开发、组装等环节节省 50% 的成本等等。大数据体现的巨大经济价值，成功地获得了金融界和政界的亲睐。

2011 年 11 月，曾投资 Facebook、DropBox、Cloudera、沃尔玛等 200 多家公司的硅谷著名风投机构阿克塞尔合伙人公司（Accel Partners），宣布成立一个金额 1 亿美金的大数据基金，专注于投资两种类型的数据创业公司：建设包括存储、安全和管理在内的新型架基础构类公司，以及在基础架构之上进行如 BI、行业应用、移动应用等开发的公司。这样的投资方向让我们看到，大数据的爆发增长使得数据驱动、数据制胜成为必然，那些能够解决这个过程中因数据而产生的各种问题的创业公司，将在市场上得到自身价值的回馈。

今年 4 月，成立于 2003 年的数据软件公司 Splunk 在纳斯达克以 16 亿美元的市值上市，给大数据行业打了一管兴奋剂。Splunk 提供的软件产品可以用于监控、分析实时及历史的机器数据，这些数据可以是日志、配置文件、消息和告警等。Splunk 可以帮助企业的 IT 管理员集中监控分布部署在多个数据中心的成千上万台服务器，免去了错误发生时需要逐个排查纠错的苦恼。从创立至今，Splunk 的客户数量已接近 4000 家，财富 100 强的大部分成员皆为其客户，包括瑞士信贷、美国银行、Comcast、Salesforce、Zynga、LinkedIn、T-Mobile、Swisscom、Shutterfly、Heroku 以及美国劳工部和能源部等。

与此同时，政府也将大数据列入了国家发展战略。今年 3 月底，奥巴马政府宣布，白宫将投入 2 亿美金的研发费用来推动大数据技术的发展，其主要目标是为了让大数据技术更好的服务于科研、环境、生物医药、教育和国家安全领域。同时，奥巴马政府对于投资的核心技术领域，也作出了明确的表示，将主要用来鼓励那些在数据采集、存储、管理、分析和共享等方面的技术研发。

综上所述，我们可以看到，大数据成为今天众人瞩目的焦点，是经过了在市场、技术、资金、以及政府多方因素推动的结果。在文章的最后，我们列出三个关键词来总结大数据技术在实际应用中的特性，希望帮助读者对于大数据的应用有一个概览性的了解。

人才。人才是大数据技术能够真正发挥其价值的首要因素，也是最大的挑战。据麦肯锡调查，至 2018 年，美国市场将出现近 20 万深度大数据分析的专业人才、150 万能够进行数据解析的职业经理人的职位缺口。大数据专业人才不仅需要多年的数学知识积累，还需要有编程、业务知识等综合能力，是稀缺的复合型人才；而对于聘用企业来说，也很难有合适的职位适合此类人才。

用户为中心。大数据技术的应用，可以帮助企业从业务的整体设计角度，发展到针对客户的个性化服务，例如，零售企业对于过剩的库存会进行整体促销，如果对于用户购买数据进行分析，就可以针对用户的喜好进行个性化促销，同时也根据用户的购买行为对库存进行准确的调配，以减少浪费。

行业化。在基础的数据采集、存储及查询方面，各行业所通用的技术架构并无显著差异；但由于每个行业的属性及需求各异，数据分析将具有较强的行业性。例如，生物信息行业中，进行基因诊断所用到的比对数据库需要专业的生物知识来进行翻译，更为深入的致病基因锁定则需要用到一系列专业算法及实验设计；在能源行业，智能电网中的电力调度，则需要通过无数的传感器数据预测下一时刻电网中各节点的配电需求，这就要求系统对于实时海量数据的高效处理能力，以及预测算法的精准。

题图来自 greenbookblog