• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

Google 调教了人工智能,让你想要的 App 来找你 1 | 灵感早读

AppSo

2017-07-12 07:30

Google 为了让大众发掘商店更多有趣应用,在人工智能方面下足了功夫。AppSo(微信公众号 AppSo)本次获得授权翻译系列文章,告诉你 Google 如何调教人工智能,让 Google Play 为你精准推荐 app。系列文章共有 3 篇,本文第 1 篇。

在 Google Play 上,每个月下载应用的人数超过 10 亿。大多数人会特意搜索 Snapchat 之类的应用,而另外一些人会模糊地搜感兴趣的关键字,比如「恐怖游戏」或者「自拍应用」。

这些按主题的模糊搜索占据 Play Store 接近一半的搜索量,所以帮助人们找到最想要的应用十分重要。

通过主题搜索不仅是按关键字找出应用,搜索引擎还需了解一个 app 所属的主题类别。通过机器学习已经可以解决类似问题,但这种方式产生结果的好坏,取决于某个主题类别的学习样本大小。

对于「社交应用」这类热门的话题,许多已知的 app 样本可以用来学习(这个从样本中学习的过程通常称为「训练」),而大多数主题类别的学习样本却屈指可数。

我们此项研究的挑战,便是从一个十分有限的学习样本,和上百万个横跨数千个主题类别的 app 中进行机器学习,这迫使我们调校机器学习技术。

我们刚开始打算建立一个深层神经网络(DNN),训练它根据 app 名称含有的字词和 app 的内容提要去预测搜索的主题。例如,如果一个 app 的内容提要提到「非常吓人」或者「可怕」,那关联的主题便是「恐怖游戏」。

AppSo(微信公众号 AppSo)注:通俗但不严谨地讲,神经网络这一计算机算法,便是模拟人类大脑思考时的判断与试错过程,它可以用来分辨猫狗、识别手写字母等等。一旦给予这个算法的学习样本越大,它学习的结果越精确,正如人类婴儿见过的猫狗越多,相应的神经刺激越多,分辨猫狗的能力越准确。

然而,鉴于深层神经网络所需的学习容量,对训练样本偏小的一类 app 它基本上「死记」了主题类别,对于没见过的新应用它更无法归类。

为了有效地解决这个问题,我们需要更多的样本给机器学习,于是我们把思路转向「大众是如何区分 app 的主题类型」。

相比深层神经网络,人类区分主题类别需要的数据集更少。例如,你只需看过几个「恐怖游戏」的内容摘要便可以把新的 app 归类到这一类型中。即是说,只需看懂 app 的内容摘要,人们便能正确地从几个样本中推断出应用的主题类别。

为了模拟人类区分主题类别的方式,我们尝试这种接近语义分析的机器学习方式。我们训练了一个神经网络去学习 app 内容摘要所用的描述词汇。这个过程使用的技术,常用来根据字词预测词汇(类似输入法联想字词),例如「分享」可以联想到「图片」。

接着我们开发了一个分类器,利用上一流程总结的词汇,分辨出一个 app 的所属主题类别。现在我们只需少量样本,便能学习一个 app 的主题类别,因为机器学习的重心基本放在语义分析上。

利用单一的分类器为所有主题分类,带来的结果是它在流行的主题上学得更多,忽视了小众主题。为了解决这一问题,我们为每个主题类别开发了单独的分类器进行隔离调试。

我们的技术产出了合理的结果,但有时候也会过度判断。例如,它会把 Facebook 归为「约会」类别或者把植物大战僵尸归到「教育游戏」。为了产生更精准的分类器,我们需要更高容量和质量的学习数据。

于是我们把上述的系统视为一个泛筛选的分类器,把数十亿个应用主题搭配,缩减到一个更易处理的小样本列表。接着我们搭建了一个流程,让人类评审员评估分类器的学习成果,然后把评审员认为正确的答案作为样本,反馈到学习过程中。

这个流程让我们从现有的学习样本中自给自足,使得分类器的结果更令我们满意。

在纠结什么才是正确答案这个问题上,我们会提前让评审员一起讨论「某某主题与某某应用是否搭配」,然后让他们为匹配程度打分,例如「相关性强」,或者「基本相关」,或者「主题不符」。

对于分歧较大的一些答案,我们发现了这些原因:可选答案相似、评审员用过的 app 不多、主题太宽泛以致于适用大多数应用。

在我们解决这些难题后,评审员的意见变得较为一致,评审员选择答案的理由也更加确切。尽管效果显著,我们有时也需接受意见不合,放弃意见始终不一的答案。

根据上文的技术,我们实现了 Google Play 应用商城的搜索和发现功能。虽然搜索功能迄今为止令人满意,与此同时我们也利用更多样本、架构改进以及新算法,不断地探索改进的技术。在续篇文章中,我们将讨论用户的个性化应用推荐。

致谢

以上研究是 Google Play 团队与 Liadan O’Callaghan、Yuhua Zhu、Mark Taylor 和 Michael Watson 的合作成果。译者李煜阳、徐广宇

延伸阅读:Google 资深研究科学家:人工智能是一种技术手段,不是魔法

本文由让手机更好用的 AppSo 授权翻译,关注微信公众号 AppSo,回复「翻译神器」,获取使用人工智能的彩云小译。

AppSo qrcode signature

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中