Google 人工智能，掀开盖子里居然有个活人

怎么样开一家人工智能公司？

答案可能比「如何把大象塞进冰箱」还简单。

文档软件开发商 Readme 的创始人 Gregory Koberger 曾经在社交网站上回答过这个问题：

1、请一群领最低工资的人来假装人工智能
2、等真正的人工智能创造出来

Gregory Koberger 当时之所以这样说，其实是为了讽刺早前人工智能创业公司 Edison Software 被曝出聘请员工假装 AI 为客户提供所谓的「智能邮件回复」服务。

事情过去也快一年了，没想到这个梗再一次被挖了出来，更没想到的是，这次讽刺的对象居然还是鼎鼎大名，被给予厚望改变世界的 Google。

Google 也骗人了？

准确来说是 Goolge Duplex 骗人了。

在 2018 年，Google 在 I/O 大会推出了一项人工智能新服务：Google Duplex。这项人工智能服务的用处，简单来说就可以替你打电话到餐馆订位。

Jimmy Tran 是一家位于加州的泰国餐馆的服务员，前些天，他接到了来自 Google Duplex 的订位电话。

但在交谈的过程中，对方浓重的爱尔兰口音（拜托，能不能走心一点）引起了餐馆小哥的怀疑。

餐馆小哥也毫不含糊，直接问对方究竟是 AI 还是人，没想到对方更直接，丝毫不掩饰，直接承认了自己其实是人。

估计餐馆小哥内心觉得憋屈：等了这么久，终于等来了 Duplex 的电话，结果你跟我说其实你是个人？于是他找《纽约时报》告状去了。

《纽约时报》也发现事情并不简单。于是他们也进行了十次实验，结果发现，十次当中有四次是成功订位的，而这四次当中仅有一次是真的通过 AI 来进行订位的，其余三次其实都是「演员们」的表演。

随后，Google 也向《纽约时报》承认了此事，并表示 Duplex 所拨出的电话中，有 25% 其实是人类，而在剩下的电话中，也有 15% 进行了部分的人为干预。

显然，百分比其实并不重要，重要的是有和无。

那么即便神奇如 Google Duplex，也摆脱不了人工干预？

Duplex 神奇的地方，其实用处并不大

其实用「人工」装「智能」的事也不是第一次出现了。除了文章开头提到的「伪装智能回复邮件」事件外，你还记得那个甚至还被授予了沙特国籍的神棍机器人 Sophia 么？

至于这次 Google Duplex 的事情之所以还能引起大家这么大的关注，其实还是因为大家对 Google Duplex 的期望太高了。

一年前，Google Duplex 一出，「Awsome」声四起。

下面的视频给没有看过或者是已经忘了 Google Duplex 是如何订位的同学了解/复习一下。

惊艳的感觉从何而来？你一定会回答：太像人了。

对，太像人了。Google Duplex 甚至还通过了部分的图灵测试——一个说到 AI 就会想到的测试，就像是 AI 的认证考试一样。

图灵测试简单来说，就是把真人和 AI 都关到「小黑屋」里面，然后在屋外安排另外一个真人轮流与他们对话。如果屋外的人无法辨别出「小黑屋」里到底哪个是真人哪个 AI，那么则会认为这个 AI 通过了图灵测试。

但是，通过了图灵测试，就能说明这个 AI 能正常地与人交流了吗？并不，因为图灵测试的本质是模仿、是欺骗，这样就使得 AI 在进行图灵测试时，遇到理解不了的问题，只要它表现得足够像人类，就可以通过假装无知，对问题避而不谈来通过测试。

▲图片来自：Wikipedia

无可否认，在模仿人类这方面，Google Duplex 做得实在太好了，无论是语音语调、各种停顿、语气词等的小动作都做得与人几乎没什么区别。这也是它通过图灵测试的资本所在。

但是，即便 Google Duplex 在语音合成上做得再极致，也没有用，因为人工智能对话系统，关键不是在于话说有多像，而是能听懂话，说对话。就好比唱歌找不着调的人，嗓音再好听，也于事无补。

能听懂人话其实才是关键

为什么让 AI 听懂人话这么难？这得从 AI 到底是怎么理解所听到的话（NLU 自然语言理解）说起。

包括 Google Duplex 在内的人工智能对话系统，对听到的每一句话，都会进行拆解，将其分成「意图」、「实体」以及「废话」。

例如你说一句：今天天气真好，我想去广州塔逛逛，帮我叫个车吧。

在这句话当中「叫车」就是「意图」、「广州塔」就是目的地实体，其余就都是废话了。

▲图片来自：Boost.ai

那么在这里，第一个问题就出现了。

例如：帮我推荐一家餐厅，不要四川菜。

在这句话当中，意图很明显，是「推荐餐厅」但是「四川菜」依旧会被当成实体，「不要」这个重要的关键逻辑，则会被当成废话。

人之所以可以理解这句话，是因为人除了可以提取关键词之外，还可以进行逻辑的识别，而 AI 所缺少后面的这一步，就让它在进行理解时，脑筋经常转不过来。

另外，还有一个问题，让现在的 AI 对话系统，和人类的对话系统有着巨大的差距。

无论你说的是哪种语言，你总有办法把信息揉进语言里面。

但是作为人类最重要的传达信息的工具，语言系统却并没有我们想象中的那么高效。我们举个例子。

假设周日晚上你在酒吧认识了个姑娘，她迷人的脸庞加上有趣的灵魂让你神魂颠倒。即便到了周一早上，你依旧像个花痴一样，一想起她就傻笑。

于是同事就来问你了：吃错药了？

你回答：我昨晚遇到了一个很棒的姑娘。

那么这个姑娘究竟有多棒？你同事并不会知道。

因为即便你在接下来的一个小时里，用尽各种语言去描述那个姑娘长得怎么样、不停地复述你们昨天聊的话题究竟多有趣，在你同事的脑海里，依旧无法一比一地把那个女生复刻出来。

比起我们的思维，语言确实很贫瘠，以至于实际上通过语言所传达的信息，其实或多或少是失真的。

那么为什么人类还可以通过这样的一个系统，正常传达信息，并以此建立起延续了七千多年的文明？

这是因为我们解读能力强。

这就好比我们的主编每天早上见到我说了一句早安后，第二句我都还没等他开口，就已经知道他想问我稿子写完没。

也好比你的同事即便无法在脑海里一比一地把那个姑娘复刻出来，只要他不是从出生开始便一直单身，他都能理解你这种如沐春风的感觉。

这种基于常识、经验、场景、直觉来解读语言、获取信息的能力，正正是目前仅能通过上下文进行意图及实体提取的 AI 来说，最为缺乏的。

而想要做到十分自然的交流，这种能力必不可缺。

实际上，图灵测试还有一个升级版：威诺格拉德模式挑战。这个测试，就是用来检验 AI 能否根据常识来解读语言的。

但可惜的是，目前的人工智能对话系统，在该测试上，都表现得并不乐观。

其实对于单靠深度学习，能否造出真正的人工智能对话系统，是有学者持怀疑态度的。

深度学习并不像大家想象的那样，你把这个 AI 造出来，然后他就会自己开始学习。目前的深度学习还停留在监督学习，以及半监督学习状态。这也就是说必须靠人去「喂」大量的标注数据，让 AI 的「实体」库和「意图」库丰满起来，做到无论你是说「我饿了」还是说「我想出去吃饭」AI 都知道需要为你推荐餐厅。

但事实上，即便这个库再大，上面两个问题其实都很难解决。

心理学家认为人的大脑有两个系统，系统一负责处理靠直觉、习惯就能完成的事情。而系统二所负责的事情则需要通过思考来完成。

专注于人工神经网络以及深度学习的计算机学家约书亚·班吉欧认为，语言是靠系统二来处理的，但是基于深度学习的人工智能，实际上更像是系统一。

当然，这里并不是在传达什么「深度学习无用论」，因为也有另外一种观点认为，人本身就是一种数据库，所有经验、常识甚至是直觉其实都可以被量化。只要解决这个统计上的问题，真正的人工智能对话系统依旧有望可以通过深度学习去达成。更何况，即便是需要重新找另外一条路，深度学习依旧会有它的一席之位，毕竟任何一种发明的诞生，其实都是多种技术的结合。

但无论是推倒重来，还是继续往深度学习的方向发展，想见到能够真正能够自然交流，而且不是朝九晚五的人工智能对话系统，可能还需要走很长的一段路才行。