实时搜索的两难选择:实时性 vs 相关度
by Erick Schonfeld from TechCrunch, Akanekou 译,转载请保留 iFanr 原文链接。
实时搜索是搜索领域目前最热门的话题。实时搜索目的是把正在发生的事件呈现在搜索结果里,twitter 的搜索引擎能提供快速的实时搜索,关注某一时刻人们正在思考和讨论的话题。Facebook 正在尝试搜索用户个人的信息流,Google 也开始关注实时搜索。
几乎每周都有新兴公司踏入这个领域 (Collecta , One Riot, Scoopler, Topsy, Almost.at, Tweetmeme, CrowdEye, Omgili 等等)。这些公司想把实时搜索用到互联网各种应用中:Twiter,Facebook feeds, Digg 的提交, 博客留言,RSS 订阅、Flickr 照片,Youtube 上传,bit.ly 的共享链接……等等等等。随着互联网的不断发展,可能应用实时搜索的领域就更多。
根据时间优先级对信息进行排序,这似乎是人们意识中自然而然的事情,也是实时搜索最具原始吸引力的地方。它与常规搜索究竟有什么不同?几年前把自己的实时搜索公司 Relegence 卖给 AOL,在此领域内有三项专利的 Edo Segal 是这么说的:“实时搜索更符合人们的认知。搜索是记忆查找的过程,实时搜索之所以很有用,因为我们所处的这个世界就是实时的,是无时无刻不在变化的”。
如果实时搜索的数据能反映你的生活状态,你怎么搜索这些数据?又如何搜索自己的生活状态呢?和常规的搜索不同,比如 Google 要解决的问题是,在查询索引的时候搜索引擎要做什么,信息是如何集中并相互关联而具有可信度的。而实时搜索的困境在于如何对结果进行排序?如何解决时间和相关度之间的矛盾?
对大多数实时搜索引擎来说,最为基本和毋庸置疑的是,把最新发生的搜索结果放在最上面的位置,然后在一条流动的信息流中,不断将能够匹配的最新搜索结果向下推。Twitter Search 的做法就是如此,按照时间远近将含有一组关键字的推进行排列。实时搜索新兴公司 Collecta 采用同样的做法把信息流简洁地呈现出来,支持用户对来源的过滤。选择以其他方式排列搜索结果将会导致搜索结果顺序重新调整,实时度也会降低。
但是由于不能对按时间排序的信息进行过滤,搜索的准确度就会受到很大干扰。因此有公司采用了不同的做法。OneRiot 发明了称为 PulseRank 的方式,把信息的鲜活程度、链接来源的权威度、共享链接用户的权威度以及信息被共享和转发的广度纳入考虑。这个方法看似很合理,但与单纯根据时间的排序相比,这种方法显得不够快速简洁。
此外还有不同的方式。你可以看看上网的人现在正在做什么,或者看看人们都提到了那些关键字,活跃度如何。当大家都在比以往更多地谈论 Michael Jackson 和伊朗的时候,你就需要关注一下了。也许实时搜索就是一个系统。
你是有目标的搜索还是仅仅看着它们随时间而变化?这还有待讨论,但很明显,为了让排序更能说明问题,按照重要性的排序和按照时间的排序一样应该得到重视。