豆包 App 更新实时语音通话功能低延时、多情绪、高双商

1 月 20 日，豆包 APP 更新实时语音通话功能，面向所有用户开放。

该功能基于最新豆包实时语音大模型（Doubao Realtime Voice Model）。更新后，豆包中文场景的对话能力在语音真实感和「喜怒哀乐」的情绪表现上近乎达到「人机难辨」的 AI 交互效果，可以模仿不同声线，并且在「逻辑思考」和「情绪感知」上有明显提升。

记者测试发现，产品表现上，豆包 App 全新实时语音通话做到了「人机难辨」的真人级交互程度，其语音表现和智力的拟人性方面有了质的提升。相比大多数语音系统还在语气层面进行粗线条变化，豆包全新实时语音通话功能可以根据场景自动对节奏、儿化音、音量、气音等细节精准把控，甚至能跟你「说」悄悄话。

此外，豆包在喜怒哀乐情绪表现方面也颇为亮眼，还掌握了部分方言与英语对话、多角色模仿，甚至部分歌曲演唱能力。在日常使用中，它既可以是英语陪练老师、讲故事高手，也可以是一位即兴唱作者。

过去，传统语音对话任务系统采用 ASR+LLM+TTS 的级联模式，无法满足真人级语音对话对理解的完整度、生成的自然度、交互的低延时等各维度的要求。而豆包全新语音能力基于创新的端到端框架，使用原生方法深度融合语音与文本模态进行统一建模。最终可实现从多模态输入直接到多模态输出的效果，赋予 AI 语音对话「灵魂」。

豆包相关负责人介绍，交付体验上，豆包语音对话在确保模型具备强大理解和逻辑能力，能联网回答时效性问题的同时，还具备超低延时和流畅打断能力。

豆包全新实时语音通话功能与同类产品拉开明显差距，中文对话断崖式领先，同时，情商智商双双在线。据外部真实反馈，用户对豆包此次上线的全新语音通话功能整体满意度为 4.36/5，对 GPT-4o 语音对话满意度则为 3.18/5，尤其语音语气自然度和情绪饱满度方面，豆包有明显优势。

目前，豆包 App 全新实时语音通话功能已经全量上线，用户下载并升级豆包 APP 至 7.2.0 新春版即可体验。