【更新】Google 与微软的春节大戏
美国东部时间 2 月 1 日早上,《Google:Bing 在抄袭我们的搜索结果》一文在 SearchEngineLand 发表,Google 称自己在去年五月末就开始注意到在 Bing 上搜索经常返回和 Google 完全相同的结果,并且十月份开始某些关键词在两家网站的搜索结果相似率迅速增高。Google 进行了一系列实验,最终认定 Bing 在通过 IE 浏览器和 Bing 工具栏收集用户在 Google 获得的搜索结果。
这篇文章的发布时间很微妙,恰好在微软 Bing 和 BigThink 在旧金山举行 “展望 2011:超越搜索框”(Farsight 2011: Beyond the Search Box) 技术论坛前几小时。文章激起了极大的反响,Bing 在几个小时后举办的论坛上被 Google 搜索团队成员当面质问抄袭问题。微软发言人肯定地回答:“我们没有抄袭 Google 的搜索结果”,团队主管 Stefan Weitz 解释说:“我们使用工具栏等工具采集点击流数据,用于改进搜索结果”。
几小时之后,负责搜索业务的微软副总裁沈向洋以 Bing 团队的名义在官方博客上发布了《关于搜索质量的想法》一文,回答十分官方,给出的解释对于普通用户来说也不太清晰:我们只是在用户的许可下分析他们的行为,并将数据用于改进搜索结果,分析的行为很多,不止 Google 一家。Google 的反击也很迅速,官方博客上迅速回应《微软 Bing 抄袭我们的搜索结果并抵赖》引用了 SearchEngineLand 的文章,罗列了更多 Bing 抄袭 Google 的证据,称 Bing 的搜索结果为 “廉价的赝品”,并高呼 “我们要求(Bing)停止这项行为”。
微软高级副总裁、在线服务负责人 Yusuf Mehdi 2 月 2 日中午在官方博客撰文《澄清是非》,不仅宣告 “我们从来不抄竞争对手的结果”,还反击说 Google 也抄袭了 Bing 的很多特色。他进一步怀疑此次行为是 Google 感到去年十月份 Bing 宣布的重大算法改进对自己造成了威胁而进行的报复。
钓鱼行动
Goole 怀疑 Bing 借鉴其搜索结果还要从去年五月说起。在 Google 上搜索 torsoraphy 这个拼写错误的词时,Google 会默认搜索其认为正确的词,并给出继续搜索错词的选项:
Google 发现,Bing 没有识别出拼写错误的情况下,但搜索 torsoraphy 所找到的仅有四个结果中,第一个结果也是 Tarsorrhaphy 的维基百科页面:
搜索类似拼写错误的词时,在 Bing 上总能得到和 Google 提供拼写建议后相似的结果,这让 Google 的工程师们开始警觉。去年十月份,Google 称自己注意到 Bing 的搜索结果越来越多的和 Google 重合,同时两家网站搜索后,头条结果相同的趋势也越来越高。Google 认为 Bing 抄袭了他们的搜索结果,并且怀疑 IE 浏览器或者 Bing 工具栏是监测 Google 搜索结果的主要工具。
为了验证 Bing 抄袭的猜想,Google 在去年十二月进行了一场钓鱼行动。他们选择了一百个关键词,大部分都是无规律的字母组合,之后临时进行手动搜索排名,将这些关键词的搜索结果指向毫无关联的页面。约二十位 Google 工程师在电脑上使用 IE 浏览器来搜索这些关键词,浏览器都启用了搜索建议和 Bing 工具条。两周的钓鱼行动结束时——通过 Bing 搜索部分关键词 (9/100)所获得的结果已经变成 Google 预设的答案。
下面这个关键词的搜索结果被无厘头地指向 Food Network 提供的一个菜谱:
Bing 的结果,指向同一个菜谱:
上面的截图引自 SearchEngineLand 的文章,文中和 Google 官方博客还有更多例子。Google 在进行手动排名时设置了搜索人数过多后恢复自动排名的保护机制,现在查询这个关键词时获得的结果已经不同。一百个关键词中只有九个被验证,但 Google 认为这已经足够说明问题。他们还进一步分析,Bing 的算法中包含许多传统因子,当搜索一些热门关键词时他们用这些传统算法。而当搜索一些生僻词,Bing 对搜索结果感到信心不足,就会更多依赖于 Google 的劳动成果。
一千种因子
微软的反击相比 Google 则简短了很多,几篇文章的反驳观点主要集中在两方面:
- 微软是在用户同意的前提下搜集匿名点击流信息,帮助 Bing 更有效率地改善搜索结果。这样的数据搜集不过是在向用户学习,并不是抄袭。而这样的搜集方式方式微软在 2009 年就公开了。
- 微软的搜索算法使用超过一千种因子,浏览器和工具条捕捉到的 Google 搜索只是其中很小的部分。这种手段也被很多搜索引擎采用。
简单说就是微软承认自己收集用户使用搜索引擎的行为数据,以此来改进 Bing 的搜索结果。所收集数据包括用户在使用 Google 等竞争产品搜索时最后会选中的链接,但这只是构成最终搜索结果的一个因素,因此微软认为自己没有抄袭行为。
微软还表示 Google 同样也通过 Chrome 浏览器和 Google 工具栏搜集数据,是五十步笑百步。Google 似乎对这项指责早有准备,他们在 SearchEngineLand 的采访中明确表示自己不会将 Chrome 和 Google 工具栏搜集到的数据用于搜索结果,以后也不会这么做。
此外微软在反击中也罗列了 Google 抄袭 Bing 的功能,包括:社会化网络搜索、主页背景图(Google 需要手动)、左侧边栏、购物/旅行服务、照片搜索中的无限滚动等。
有趣的是站在微软方面的有力的声音基本都来自外界,比如 Direct Match Media 公司创始人 Ben Cook 就撰文声援微软,认为 Bing 应该使用用户搜索数据(搜索关键词,点击链接的信息)以改善搜索结果,并且这些数据的所有权属于用户,而不是 Google。Google 工程师在钓鱼行动中确实作为用户向 Bing 提交了点击数据。
Ben 指称 Google 的钓鱼行为很有误导性,因为这些关键词毫无意义,有效地消去了 Bing 搜索算法中绝大多数因素的影响。但即便在这样的情况下,成功率也只有 9%,如果 Bing 的算法看重来自 Google 的点击流信息,成功率恐怕不会这么低。
【2 月 3 日补充 Edmond Lau 与 John Langford 的观点,感谢 @chuan 提供的信息】
前 Google 软件工程师 Edmond Lau 在 Quara 上表示搜索引擎借助工具条搜集到的点击和访问数据改善搜索结果的做法非常合理且符合逻辑,他用了一个比喻:
Bing 的做法和开餐厅的去 Yelp 看顾客对其他店家所采取措施的好评,并在自己的店里实践没什么不同。只是 Bing 的步骤非常自动化。
Edmond 在 Google 期间与两位工程师一同完成了 Google 关联搜索(Related Search)的开发和改进,他目前在 Quara 工作。Edmond 认为 Google 反应如此激烈的主要原因是这种做法对后来者更为有利。
雅虎研究中心高级研究员 John Langford 的研究领域包括机器学习,他从用户自由(user freedom)的角度谈了这个问题,提了两个问题:
- 用户能不能将自己偏好的结果提交给自己当前所用的搜索引擎?
- 用户能不能将自己偏好的结果提交给当前所用搜索引擎的竞争对手?
John 自己对这两个问题的回答都是肯定的,并且认为搜索引擎的良性竞争需要降低门槛让新入行者有机会一展身手。其中的一个重要途径就是允许用户分享自己的交互信息,哪怕用户将自己使用某个搜索引擎的交互信息分享给竞争对手。John 表示,如果 Bing 只是通过用户提交的结果改善自己的搜索结果而没有直接抄袭,就是合理的。
上文引用的观点只是重点摘录,请点击相关链接查看完整的论述。
纠葛的过去
微软和 Google 的战争已经进行了多年。作为互联网行业的两大巨头,没有摩擦或争执反倒不太正常。早在 2007 年微软就有意无意的指示旗下 IT 界领袖们组成的游说团体反对 Google 收购 DoubleClick。ICOMP——一个一直坚定反对 Google 的组织也被曝光长期受微软赞助,并与几名微软高管保持密切联系。
把时间拉近一些,去年十月微软起诉摩托罗拉侵犯专利权就是针对其旗下的 Android 平台手机。当时恰值近 Windows Phone 7 操作系统的发布,摩托罗拉是唯一一家不打算推出 WP7 手机的主流 Android 厂商,被选中起诉的原因也许并不难猜。随着互联网企业的发展,微软、Google 和苹果三家公司不可避免地在大多数产品上都有所交集。来自 Gizmodo 的一张图很好地描绘了这些短兵相接。
而 Google 和微软在搜索市场的竞争更加无法避免。根据 Hitwise 的统计,在美国搜索引擎市场, Google 占据 63%,而 Bing 位居第二得到 13%。
看起来 Google 霸主地位十分稳固,不过考虑到雅虎在美国完全采用 Bing 的搜索结果,情况就有些不同了。将雅虎的访问量重新纳入计算后,Bing 的市场份额变为了 27.7%,接近 Google 的一半。这未必是 Google 采取如此大规模行动的原因,却一定是激化矛盾的一个重要因素。
围观时间线
这样一场精彩的唇枪舌剑应该是策划已久,毕竟 Google 在去年底就进行了实验。选择在这个时机公开发表、选择在 Bing 举行搜索技术论坛当天发难、微软回应之后迅速在官方博客继续追击,想必都是有准备的行为。无论 Bing 抄与不抄,无论 Google 是伸张正义还是转移话题,这次发难都很难通过法律途径解决——举证的难度过大。
总结一下时间线:
2010 年 12 月 31 日:Google 钓鱼行动结束,认定 Bing 抄袭。
2011 年 1 月 1 日:TechCrunch 发表文章《为什么我们迫切需要一个新的搜索引擎》,引起业界指责 Google 搜索质量的风潮。
2011 年 1 月 13 日:SearchEngineLand 的一位作者发表文章《Google vs Bing:超级搜索引擎的谬论》,隔天 SearchEngineLand 的作者 Danny Sullivan 接到 Google 邀请于 1 月 28 日探讨搜索技术相关问题。这次会面中,Google 搜索团队向他公开了他们对 Bing 的怀疑和实验。Google 方面希望相关信息在 Bing 的搜索论坛活动之前被公开。
2011 年 1 月 14 日:Bing 邀请 Danny Sullivan 参加其 2 月 1 日的搜索技术论坛。这项活动是由 TechCrunch 谴责 Google 的文章作者 Wadhwa 协同组织的。Wadhwa 后来在 Twitter 上表示一切都是巧合。
2011 年 2 月 1 日:SearchEngineLand 作者 Danny Sullivan 首发《Google:Bing 在抄袭我们的搜索结果》,Bing 团队成员在技术论坛上回应称自己没有抄袭,在官博发布《关于搜索质量的想法》,Google 迅速回击:《微软 Bing 抄袭我们的搜索结果并抵赖》。
2011 年 2 月 2 日:Bing 高级副总裁撰文《澄清是非》
两大巨头在官方声明上摆好阵势,高管们也在 Twitter 上争论不休,火药味更重了许多。微软的副总裁 Frank X. Shaw 在 Twitter 上表示:
1. 别被 Google 骗了,他们只不过是想转移话题。 Google 在美国和欧洲正因被操纵搜索结果而被调查。
2. Google 也从 Chrome 和 Android 上收集用户数据,五十步笑百步?
3. 我们的算法考虑了一千多种因子,Google 不过是其中一种。
Frank 还表示 Google 让员工登录微软的用户体验反馈系统并提交结果,所以得出的结论并不可信。Google 搜索质量团队成员 Matt Cutts 反驳说:” 你说的用户体验反馈系统该不会就是 IE8 浏览器吧。”
当 Bing 在 2009 年上线时,业界开玩笑 Bing 是 “Because It’s Not Google”(因为它不是 Google)或者 “But It’s Not Google”(然而他不是 Google),如今这个笑话也许要改成 “Bing is Now Googe”(现在 Bing 就是 Google)。Bing 博客文章的评论区有很多评论者指责微软抄袭,过去两天,“Powered by Google”(基于 Google 技术)这句话在 Bing 博客出现的频率很高。不开放评论区的 Google 官方博客在这方面就占了不少便宜。
这场战争也许止于 Google 和 Bing 的技术之争,也许爆发为微软和 Google 关系全面恶化,微软选择在今天宣布对 H.264 的支持不知道有没有受这次事件的影响。农历新年时节有这样一场比春晚好看许多的大戏,不失为看热闹的好选择。