首家支持 Google Lens 的博物馆即将到来，但用 AI 取代人力向导似乎说得还有点早

在 2017 年的 I/O 大会上，Google 发布了一款能识人又能识物的新产品：

你只需要对着别人的名片一扫，所有信息就能存进通讯录；
你只需要对着景物一扫，就能获得当前景物的所有信息；
当你在游览时，它还能担当你的随身翻译、导游……

更重要的是，这款产品打破了智能手机的档次局限，无论是高端旗舰还是低端入门，只要搭载的是智能系统，任何手机都能用得上它。

这个在当时有着神仙功能的新品，就是我们在往后两年 I/O 活动上都能看到的「Google Lens」，如今这个产品经过两年的发展，它已经成为识物工具中的佼佼者。

而随着今年 Google 在这款工具里加入 AR 和朗读功能后，有着 124 年历史的笛洋美术馆（de Young museum）也在近日宣布，将全面支持游客用 Google Lens 游览展馆。

这也是世界上第一家支持 Google Lens 的美术馆 / 博物馆。

▲ 图片来自：Artnews

在笛洋美术馆内，游客可以通过 Google Lens 对展品进行识别，系统在进行识别后会推送当前作品的作者、历史等相关信息，用户可以在馆内通过这个功能自由获取想了解的内容。

而且更有意思的是，除了对作品进行识别外，游客还可以通过 Google Lens 对特定物品进行识别，识别成功后系统会播放作品相关的 AR 图像或视频内容。

通过这种方式，用户能获得面前这幅作品以外的信息，譬如让作者在视频中介绍当前作品的创作经历等，让游客通过具象且优雅的方式获得知识内容，就像和艺术家面对面交流一样。

不过，AI 识物能在未来取代传统人力向导成为游客获得新知识的主要途径吗？我认为这个想法是不错，但现在说似乎还有点早。

强大的 AI 人工智能让 Google Lens 成为了当今世界上数一数二的识图工具，越来越多的应用途径，也让这款工具走出实验室和 PPT，成为用户了解新事物的另一种途径。

▲ 图片来自：9to5Google

但这种机械式的向导能取代人力成为未来游览的发展主流吗？我认为说「取代」那这话可能说得有点早了，而且在短期内，AI 向导不会取代人工成为主流。

首先我不否认 AI 的两个优势：全天候运作和可延展性。

相比于人工向导，AI 能 24 小时全天候工作，同时通过自学习能力，AI 能在执行任务的过程中不断学习。而且在网络的帮助下，AI 并不是一个大脑在学习，而是服务器主脑和终端「大脑」们的信息互通，从而组成一张存储特征的智能网络。

从表象来说，比如我用手机对着我面前的杯子进行扫描，系统会记录物体的特征信息，当其他用户扫面类似的物体时，AI 会进行特征识别和结果筛选，快速得出识别结果。或者当我第一次扫描这个物体时，AI 会先记录特征，当我第二次扫描时，AI 会继续增加特征点，从而全局提升识别的速度和准确率。

神经网络的自学习能力能让 AI 的识别效率接近人脑，甚至有着不受情绪和精神的影响，它可能还会超越人脑，但是能得出准确无误的结果，前提是需要大量训练。

AI 能在短时间内得出识别结果，实际上有赖于研发团队在功能推出前的各种训练工作。譬如在 Google 的 TensorFlow API 中，他们会通过 COCO 数据库的 90 大类、共 30 万张图像对 AI 进行识别训练，继而通过图像去提升 AI 的识别能力。但即便有着大量的训练信息作为基础，AI 也并非天下无敌。

The Verge 在近日的《人工智能难以识别低收入地区的日用品》这篇文章中，就对 AI 识别的基础进行探讨，并给出了「AI 训练不平衡」的观点。

研究人员发现，物体识别算法在识别月收入 50 美元的家庭物品时，结果的误差大约会比超过 3500 美元的物品增加 10％。而且不同地区物品的准确率也差异甚大，比如算法在识别美国物品方面会比索马里和布基纳法索的物品提升 15%~20% 的准确率。

另外这篇文章有意思的论点在于，由于 AI 识物在训练时大多都是在发达地区训练，因此对于非发达地区的物品，AI 识物会出现识别失效的情况，这种不平衡的现象很可能会影响未来自动驾驶在非发达地区的发展，因为自动驾驶需要依赖传感器和 AI 识别。

▲ 同一个 Soap（肥皂），不同的结果. 图片来自：The Verge

所以尽管 AI 在某些方面比人类表现出色，但前提需要大量的数据支撑，对于存在变量的物品，人脑在学习和处理上则会比 AI 优秀。面对博物馆固定的展品，AI 能带来低成本、快捷的体验，但应对互动和数据库没有的物品，人力向导仍然占有一定优势。

不过 AI 要取代人力，真正要克服的不是知识量，而是交互情感。

AI 识物能提供详细的知识传播，但却不具备人类最可贵的互动交流。虽然 AI 识物方便参观者通过手机查看当前展品的详细信息，但这只是机械性地获得千篇一律的内容，而并非是人与人交流。这种区别就像网上授课和面对面课堂，获得的信息是不变的，但若是要提问详情中没有的知识，谁能解答呢？

当然，面对情感这个大问题，不少厂商也正通过语音优化让 AI 贴近人类发声，比如 Google Duplex 在语音中加入了仿人类的语气和停顿，「唔」、「哦」这些助词让 AI 说出的话更像是个真人而并不是机器人；苹果也在 iOS 13 通过 TTS 对 Siri 进行多语音拼合优化，让 Siri 的发音更加自然。