什么是 data ?存得起來的, 就是 storage 。看得懂的, 叫做 information 。用得出來的, 才能称为 intelligence 。
(在 2009 年出现的)甲型 H1N1 流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。
谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过 30 亿条的搜索指令, 如此庞大的数据资源足以支撑和帮助它完成这项工作。
谷歌公司为了测试这些检索词条,总共处理了 4.5 亿个不同的数字模型。在将得出的预测与 2007 年、2008 年美国疾控中心记录的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了 45 条检索词条的组合,一旦将它们用于一个数学模型,他们的预测与官方数据的相关性高达 97%。
来源:《大数据时代》
题图来自 Businessweek