浙江大学研究发现：语音助手容易被黑客控制

本文由王宇欣、藤子编译，来源 CO.DESIGN，发布于机器之能（微信公众号：almosthuman2017），转载请联系 [email protected]。

浙江大学的研究团队通过使用一种名为 DolphinAttack 的技术将典型的声音指令转换为一种超声波，该超声波的频率超出人耳识别的范围，但却能被一直处于打开状态的语音助手的麦克风和软件完美解读。正是这种简单的转换操作，让他们仅仅用超声波传达几行命令就能控制我们的设备。

通过传达人类无法识别的频率，黑客可以控制世界上最流行的语音助手。

中国的研究者们发现了包括 Apple、Google、Amazon、Microsoft、 Samsung、和 Huawei 在内诸多公司研发的语音助手存在可怕的漏洞。该漏洞涉及每一台 iPhone、运行 Siri 的 Macbook、Galaxy 手机、配备有 windows 10 的个人电脑，甚至影响了亚马逊的 Alexa 小助手。

一只浙江大学的团队，通过使用一种名为 DolphinAttack 的技术将典型的声音指令转换为一种超声波，该超声波的频率超出人耳识别的范围，但却能被一直处于打开状态的语音助手的麦克风和软件完美解读。正是这种简单的转换操作，让他们仅仅用超声波传达几行命令就能控制我们的设备。

研究员们并非仅仅激活了一些如「你好，Siri」或者「好的，Google」的基本的命令。他们同样可以命令 iPhone「拨出号码 1234567890」或者控制 iPad 与该号码进行视频通话。他们还可以强制命令 Macbook 或者 Nexus 7 打开恶意网页；可以命令 Amazon Echo「开启后门」（在八月份的新闻发布会上，发言人解释说，这种操作需要个人识别码）；他们甚至可以将奥迪 Q3 的导航系统重新定位到新的位置。[无声] 的声音命令使普遍的设计假设受到质疑，即对手试着通过声音操控 [语音助手] 时，但是可以被警惕意识高的用户所察觉，」研究团队将这些写在了一篇论文中，该论文被 ACM 计算机和通信安全会议所接受。

换句话说，硅谷设计了对人类友好的用户界面，并赋予其极大地安全监督的职责。即使我们听不到那些坏家伙，但是计算机可以清晰的识别。「从用户体验设计的角度来讲，这就像是一种背叛，」非盈利组织 SimplySecure 的设计总监 Ame Elliott 说。「你与设备沟通的前提是『告诉它做什么』，这种秘密的指挥令人吃惊。」

研究者只利用了一台智能手机、价值大约 3 美元的硬件，包括一个微型扬声器和一个放大器（amp) 就侵入了语音助手，理论上来说，他们所公开的理论可以被任意一个具有些许技术知识、口袋里略微有点钱的人复制。

在一些情况下，这些攻击只能从几英寸之外进行，尽管像 Apple Watch 这样在几英里范围内都很脆弱。在这个意义上，很难想象 Amazon Echo 被 DolphinAttack 入侵。这就是说，一个入侵者如果想要「打开后门」的话，他必须要已经在你的房子里，靠近 Echo 才可以。但是，入侵一台 iPhone 似乎问题不大。黑客只需要在人群中走在你身边就好。他们拿出自己的手机，用你听不到的频率发送命令。所以你看不到 Safari 或者 Chrome 登陆了一个网站，执行了代码下载恶意软件，而你的手机的内容和对话对他们是完全开放的状态，可以任意查看。

该漏洞的产生是由于硬件和软件问题的结合，研究员们在论文中对其进行了解释。驱动如 Siri、Alexa 和 Goole Home 语音助手的麦克风和软件可以识别一些特殊的频率，尤其是超出人耳极限 20Khz 的频率。（20kHz 有多高呢？还在几年前广泛流行的蚊式铃声之上，该铃声可以让听力良好的年轻学生在不被老师听见的情况下给朋友发送信息。）

据 NewDealDesign 的创始人、Fitbit 产品的工业设计师 Gadi Amit 所说，这样麦克风的设计很难让他们抵御这种类型的攻击。「不同类型的麦克风的组件之间有很大的不同，但是大部分都使用了空气压强，这使得其可能无法阻止超声波，」Amit 解释。基本上，如今最流行的麦克风都将气流或是音波转化为了电波，完全阻止这些超出人耳频率的波基本是不可能的。

这就是说，我们完全依靠软件识别哪些是人类的语音，哪些是机器的语音。理论上，Apple 或者 Google 可以通过数字声音过滤器使其语音助手不遵从频率超过 20kHz 的语音，「等等，这个人说的话超出了人声的频率范围！我不能听他的！」但是根据浙江研究者们的发现来看，各大主流语音助手公司均在超出 20kHz 的命令的情况下展现出漏洞。

为什么 Amazons 和 Apple 会留下这样一个可能被软件轻松侵入的漏洞呢？尽管我们已经联系到 Apple、Google、Amazon、Microsoft、Samsung 和 Huawei 对该漏洞置评，我们仍旧不清楚其中的原因。但是至少，有两种理论是完全合理的，并且均会使语音助手对用户更加友好。

第一点是，与不用高频波分析声音对比，语音助手确实需要超声波来更好地理解人类的声音。「记住，声音分析软件也许需要你语音中每一点提示来创建属于其自己的理解，」Amit 对滤除高频波的声音系统作出回应。「如果这样做的话，也许会对整个系统的全面理解能力造成负面的影响。」即使人类不需要超声波就能听到其他的声音，但是计算机却对其十分依赖。

第二点是，一些计算机已经在其用户体验设计（UX）中利用了超声波，包括手机与设备之间信号的传递。值得注意的是，Amazon 的 Dash Button 与手机配对的频率约为 18kHz，Google 也是用超声波进行配对。对终端用户来说，这种难以察觉的配对在电子学流行的现代时期给用户创造了他们期待的神奇体验。(「它是怎么工作的？谁在乎，这是魔法！」）。但是我们听不到这种装置工作的声音，所以同样无法分别它们什么时候出了差错或者什么时候被侵入。它们本身就被设计为不可见的。这就像你开着一辆装有无声引擎的汽车。就算同步带发生了断裂，你也只有在汽车停止或者引擎被毁的时候才能发现。

的浏览器可以很容易地在我们不知道的情况下收集 cookies，这使得其营销者可以通过网页追踪我们。我们的收集将照片和联系人备份到云端，这些私人的信息吸引着黑客。这就像每种易于使用的技术总会有其代价：个人信息的脆弱性。这种新型的语音命令漏洞仅仅是由于设计引发的一系列安全问题中最新的罢了，但是，也许它是硅谷在面对新兴技术时，普遍展现出对安全的漠视的最好的例子。

「我认为，在考虑产品被错用的可能性时，硅谷存在盲点。产品不像规划时那样具有较强的鲁棒性，」Elliott 说。「语音系统显然难以具有较高的安全性。这就导致了问题的增长… 有时候很难通过有意的设计来理解系统的工作方式。我认为需要努力消除语音的无缝性，并考虑增加系统工作原理的可见度。」

现在来说，对于 DolphinAttack 漏洞有个相对比较容易的修复方式。你只需要把手机或平板上一直处于打开状态的 Siri 或者 Google Assistant 关上就好，黑客就不能向你的手机发送命令了（除了一些你自己尝试与其建立连接的情况）。同时，Amazon Alexa 和 Google Home（研究人员没有对 Home 进行测试，但是其在理论上一样容易存在漏洞）都要有拒绝接受外界信号的按键，并保证其大部分时间都能有用。

当然，这些方法仅仅是固步自封罢了。如果我们可以安全使用语音助手的唯一方法就是确保其不接受外界的声音，那么它们的意义又在哪？也许这些窃听计算机在我们的生活中并不常见—至少在公共场合见不到。

我们已经联系了 Apple、Google、Amazon、Microsoft、Samsung 和 Huawei，如果收到反馈，我们会进行更新。