语音助手有「情绪」了,说话越来越像人
在电影《Her》里,人工智能语音助手萨曼莎拥有迷人的声线,温柔体贴而又幽默风趣,与男主角展开了一段柏拉图式的爱情。
然而在现实中,你可能都不愿意和 Siri 多说两句话,因为这些语音助手不止「蠢」,说话语气还很生硬,一点也不像人,但最近亚马逊的语音助手 Alexa 已经可以用不同语气来回应用户的问题了。
今天亚马逊公布了语音助手 Alexa 的最新进展,Alexa 可以在与用户交流时以高兴、激动、失望、同情等不同情绪的口吻来回应。开发人员表示,希望这项新技能有助于创造出「更自然、直观的语音体验」。
▲图片来自:memoori
Alexa 可以在声音里表达不同情绪,会让她在很多场景看起来更加贴心。比如当你向 Alexa 询问一场比赛的结果时,如果你支持的球队输了,她就能用失望和安慰的语气来告诉你。
亚马逊还在官网发布了 6 段 Alexa 不同语气的音频,分别是失望和高兴两种语气,而每种语气根据情绪程度又分为从弱到强三个层次,不妨来直观体验一下。
▲ 失望语气,播放顺序依次为为弱、中、强.
▲高兴语气,播放顺序依次为为弱、中、强.
至于效果如何就见仁见智了,The Verge 的编辑就认为 Alexa 失望的语气听起来一点也不失望,但最强程度的高兴语气听起来赢了一盘游戏。
Alexa 除了可以展示不同语气,还能模仿电台 DJ 的声音,以一种新的「专注于主题(topic-focused)」的声音来讨论音乐。早在今年一月,亚马逊就让 Alexa 模仿新闻主播的语气来播报新闻。
▲图片来自:tumblr
为什么过去很长时间语音助手说话语气都比较生硬,不能像人一样说话?要回答这个问题,需要简单了解语音助手说话的原理。
根据人工智能公司 Rokid A-Lab 的 Meng Meng 在知乎上的回答,目前主流的语音助手都是基于 TTS(文本转语音,text-to-speech)技术,要表达除抑扬顿挫的语气就要通过大量音频数据学习,但要以恰当的情绪表达出文本的含义,往往还要对上下文有所理解。
▲图片来自:Medium
而这些数据学习还得依赖人工来数据标注,包括但不限于韵律边界,重音,边界调,情感等描述,而且比起英文,中文的含义又更加复杂,花费的时间很长,科技公司一般会优先做通用的语气,因此语音助手的语气都非常单调。
Alexa 之所以能拥有更丰富的情感和语气,主要依靠一项叫做 NTTS(神经文本转语音)的技术,这是基于 TTS 升级的一项技术,通过深度神经网络,让语音助手知道应该强调那些音节,听起来更加自然。
这种技术不仅能让语音助手说话更像一个人,而且还能快速掌握不同的语音风格,花费数小时就能让 Alexa 像新闻播音员一样说话,不用像过去一样在数据标注上耗费大量时间。
当语音助手能表达的情感越来越丰富,未来人们或许真的可以和手机里的「ta」谈恋爱了,像《恋与制作人》这类恋爱养成游戏,可能就更加令人欲罢不能了。
题图来自:《Her》