语音助手有「情绪」了，说话越来越像人

在电影《Her》里，人工智能语音助手萨曼莎拥有迷人的声线，温柔体贴而又幽默风趣，与男主角展开了一段柏拉图式的爱情。

然而在现实中，你可能都不愿意和 Siri 多说两句话，因为这些语音助手不止「蠢」，说话语气还很生硬，一点也不像人，但最近亚马逊的语音助手 Alexa 已经可以用不同语气来回应用户的问题了。

今天亚马逊公布了语音助手 Alexa 的最新进展，Alexa 可以在与用户交流时以高兴、激动、失望、同情等不同情绪的口吻来回应。开发人员表示，希望这项新技能有助于创造出「更自然、直观的语音体验」。

▲图片来自：memoori

Alexa 可以在声音里表达不同情绪，会让她在很多场景看起来更加贴心。比如当你向 Alexa 询问一场比赛的结果时，如果你支持的球队输了，她就能用失望和安慰的语气来告诉你。

亚马逊还在官网发布了 6 段 Alexa 不同语气的音频，分别是失望和高兴两种语气，而每种语气根据情绪程度又分为从弱到强三个层次，不妨来直观体验一下。

▲ 失望语气，播放顺序依次为为弱、中、强.

▲高兴语气，播放顺序依次为为弱、中、强.

至于效果如何就见仁见智了，The Verge 的编辑就认为 Alexa 失望的语气听起来一点也不失望，但最强程度的高兴语气听起来赢了一盘游戏。

Alexa 除了可以展示不同语气，还能模仿电台 DJ 的声音，以一种新的「专注于主题（topic-focused）」的声音来讨论音乐。早在今年一月，亚马逊就让 Alexa 模仿新闻主播的语气来播报新闻。

▲图片来自：tumblr

为什么过去很长时间语音助手说话语气都比较生硬，不能像人一样说话？要回答这个问题，需要简单了解语音助手说话的原理。

根据人工智能公司 Rokid A-Lab 的 Meng Meng 在知乎上的回答，目前主流的语音助手都是基于 TTS（文本转语音，text-to-speech）技术，要表达除抑扬顿挫的语气就要通过大量音频数据学习，但要以恰当的情绪表达出文本的含义，往往还要对上下文有所理解。

▲图片来自：Medium

而这些数据学习还得依赖人工来数据标注，包括但不限于韵律边界，重音，边界调，情感等描述，而且比起英文，中文的含义又更加复杂，花费的时间很长，科技公司一般会优先做通用的语气，因此语音助手的语气都非常单调。

Alexa 之所以能拥有更丰富的情感和语气，主要依靠一项叫做 NTTS（神经文本转语音）的技术，这是基于 TTS 升级的一项技术，通过深度神经网络，让语音助手知道应该强调那些音节，听起来更加自然。

这种技术不仅能让语音助手说话更像一个人，而且还能快速掌握不同的语音风格，花费数小时就能让 Alexa 像新闻播音员一样说话，不用像过去一样在数据标注上耗费大量时间。

当语音助手能表达的情感越来越丰富，未来人们或许真的可以和手机里的「ta」谈恋爱了，像《恋与制作人》这类恋爱养成游戏，可能就更加令人欲罢不能了。

题图来自：《Her》