AI 降噪软件的出现,不仅仅要终结手机双麦克风时代
从诺基亚到 iPhone X,手机在这些年产生了天翻地覆的变化。按键消失了、边框消失了、连耳机孔都消失了,屏幕越来越大、摄像头也越来越清晰……
不过人们很难感知到的一点变化是,通话中的噪声变得越来越小了。在机场、火车站一类地方嘈杂的背景音中,清晰地听到彼此的声音并不是一件容易的事,麦克风会把环境音一起收集起来,接听时会受到巨大的干扰。
为了解决这个问题,手机厂商做出了很大努力。目前主流的解决方案是双麦克风,一个放在靠近嘴巴的地方收集人声,一个放在顶端或背部收集环境音,再通过算法将人声从背景音中剥离出来,传送到手机的另一端。但双麦克风+算法真的是主动降噪最好的选择吗?
两个麦克风,仍然解决不了一个老问题
显然不是这样的。
首先双麦克风降噪本身就有一定的局限性,因为算法要在手机终端运行,所以规模不能太大,实现效果也相对有限。具体表现为,有时用户不再说话时,靠近嘴部的麦克风收集的其实还是环境噪音,对于人声剥离的计算会产生一种断断续续的状况。而且当用户使用蓝牙耳机或有线耳机通话时,手机端的双麦克风降噪算法往往又会失效。
同时双麦克风在工业设计上也会造成很多阻碍。两个麦克风会让声学音频路径的设计更加复杂,在 ODM 和 OEM 角度都会增加生产设计成本。尤其在如今手机越来越追求屏占比和轻巧的今天,元件自然是越少越好。
而且在一些使用场合中,用来收集人声的麦克风不一定会被放在人们的嘴边。例如在录音,或者应用一些 App 上的对讲机功能时,人习惯将手机放置在桌子上,或者拿在举例嘴略远地方。这时两个麦克风很难接收到不同的声音,让算法起不到作用。
如果脑洞开的再大一点,未来我们的手机不一定还是如今的平板形状。也许是能卷起来的曲面屏手机,也许是眼镜形态,未来通话的交互方式,也不一定是将手机的一部分放在嘴边收声。总之,这种双麦克风降噪模式绝不是主动降噪最终的解决方案。
其实早在 2015 年,中国科技大学语音与语言信息处理国家工程实验室就创作了关于通过深度神经网络+单麦克风实现主动降噪的论文。具体实现方式是,建立含有噪声+人声和纯净人声的数据集,以深度神经网络为架构训练出分离噪声和人声的 “语音增强回归” 算法。在初步试验后,这种算法的结果还不错。从训练成本来看,即使用人工合成的数据,算法结果仍然表现优秀。也就是说算法的应用者不需要面对到现实世界收集数据,可能会侵犯隐私的难题。从应用上来说,这一算法的降噪能力并不比双麦克模式差,甚至还能克服双麦克风克服不不了的间断噪声问题,有时候人们在走路或跑动时接电话会形成偶尔出现的间断噪声,以往的双麦克风模式很难捕捉到这种噪声,但语音增强回归算法就能将人声从中剥离开来。
不过这种算法在这几年间都没有得到很好的应用,原因很简单,深度神经网络模型往往体量较大,很难实现在终端上运行,如果在云端运行,又难免会因为延迟状况不能在实时通话中应用,要知道人类对于交谈时延迟的忍耐最多只有 200 毫秒。可要是用在语音的后期处理上,好像也并没有什么意义,只要换个收声好一点的话筒就能解决问题,还能保证音质还原。
不过随着这两年以来终端算力的增长,以及对 AI 算法的不断优化,在终端部署这类模型已经逐渐成为可能。例如一些蓝牙耳机已经部署上了可以在本地运行的 RNNoise 算法,通过简单的运算来分离单一收音来源的噪声。
这种本地 AI 降噪技术的应用舞台,不仅仅在手机一种产品上。除了手机通话之外,我们其实无处不受通话噪音的干扰,尤其当语音交互应用的越来也多时,这些问题也越来越严重。比如在游戏直播时,主播的声音可能会被外放的游戏声音干扰,必须高价购买专用声卡和麦克风才能和粉丝畅快的沟通。又比如车载场景下的语音交互,又有可能被驾车时嘈杂的背景音和导航的声音干扰,最后逼得一些车联网方案将麦克风阵列装置在了方向盘上。以及这几年很流行的智能音箱,为了防止家庭环境中的噪音干扰,需要在麦克风阵列上增加很多成本,像是苹果的 HomePod 就足足安装了 6 个麦克风阵列……
但这一切都在被语音增强回归算法和终端计算所改变。就像最近,一家名为 Krisp 的创业企业集合了相关算法推出了一款应用于 PC 端的软件,利用 PC 端本地算力来运行模型,降低 PC 端收音的噪音。不需要昂贵的声卡和外置麦克风,和 Skype 等等软件也不会产生冲突。同时 Krisp 还计划推出针对于游戏的定制版本,专门应对游戏语音、游戏直播时被游戏背景音乐困难的问题。
目前这款软件在英伟达的 GPU、英特尔的 CPU/GNA 和 ARM 的芯片上都能运行,和高通的合作也在洽谈之中。也就是说如今的 PC 版本只是开始,未来只要能应用这些芯片的终端,都可以应用上 Krisp 的软件,实现在终端的实时主动噪音抑制。
因此 Krisp 也展示出了充分的市场前景,受到了资本的青睐,在首轮融资中就融到了 150 万美元。Krisp 的出现也带出了一个问题:随着终端算力的提升和小规模 AI 算法的发展,这种软件替代硬件的模式是否会迎来上一个商业上的小爆发?在终端功能的实现上,永远都有算法和硬件两条路。降噪可以用双麦克风解决,也可以用 AI 算法解决;拍照效果可以用双摄提升,也可以用单目摄像头+算法来提升;电量不足可以增大电池容量,也可以用资源调度算法解决……
虽然以往我们都是通过硬件上的研发来解决,但这其中也存在不小的问题:硬件的频繁更新会给厂商带来巨大的生产和研发成本,这些成本转嫁到消费者身上时,会导致高端和低端机型在硬件上差距太大,其实还会给开发者带来负担。而且现在硬件追求轻薄小巧,更加大了硬件创新的难度。
但今天我们有了用算法解决问题的条件,事情就会产生很多变化。首先很多原本在贵价产品上才有的功能,会出现 “平价替代” 方案。例如此前 iPhone X 用 3D 结构光实现的 Animoji,如今在快手一类的产品上也可以用 AI 算法实现类似功能。
同时算法的更新迭代比硬件更加敏捷高效,用户体验可以得到极大的提升。一些创新功能可以更快速的来到用户面前并得到反馈。
最后,终端产品在研发成本和产品形态上都有了更广阔的想象空间。尤其是未来 5G 应用后,算法模型也许也不再需要拘泥于终端算力,或许会彻底改变我们使用终端产品的方式。
如此看来,或许几年之后软件市场会迎来自移动应用之后的又一次发展机会,起跑线已经划好,就待哨声吹响了。
本文来自微信公众号脑极体(ID:unity007),作者为我堂堂一个熊猫,爱范儿经授权发布,文章为作者观点,不代表爱范儿立场。