科大讯飞刘庆峰:腾讯应该让它的用户使用最好的语音识别
10 月底,微信向公众帐号开放了语音识别接口。而在日前的合作伙伴沟通会上,微信又针对第三方 app 开发者推出了微信语音识别开放平台。这一系列举措步步逼向中国语音行业的龙头老大科大讯飞。
近日,科大讯飞在合肥总部举行了首次媒体开放日,该公司董事长兼 CEO 刘庆峰向爱范儿详细解答了微信带来的竞争问题。
早就知道微信想做语音识别开放平台
“微信我们一直都在关注,在它推出微信语音识别开放平台、包括语音的公众帐号垂直行业应用之前,我们早就知道这个信息,而且在判断这个态势时早就发现。” 刘庆峰表示微信移动研究院刚成立时就跟讯飞接触过,“我们知道他们想自己做,包括当初在北京怎么定我们都很清楚。”
不过在刘庆峰看来,微信带来的并非全是竞争压力,“我觉得微信开放语音平台、对沟通状况的支持,是对整个行业很好地拉动。”2011 年苹果推出 Siri,将智能语音概念首次推向大众群体,此举极大促进了语音消费市场的发展。随后科大讯飞借势发布中文语音助手讯飞语点,并在国内市场拿下大片蛋糕。而手握 2.7 亿活跃用户的微信,其介入可能会进一步拉动整个语音行业,推动消费市场成熟。
目前在国内市场,主流消费者依然将语音助手束之高阁,一方面是语音助手的智能化有待提高,另一方面则是消费者的使用习惯难以养成。刘庆峰认为 “未来我们面临的最大问题或挑战,是如何持续地拉动用户,使中国用户对于使用语音是很自然的习惯。”
腾讯应该让它的用户使用最好的语音识别
10 月底微信向公众帐号开放了语音识别结口,并根据公众帐号的不同应用场景,将语音识别服务划分为健康、金融等 7 个垂直领域。此举可能会让健康、金融等垂直服务对独立 app 的依赖性进一步降低。这种潜在的微信 “垂直服务围墙” 日后一旦构建,可能削弱科大讯飞在垂直语音服务方面的影响力。
对此,刘庆峰回忆起今年 4 月博鳌亚洲论坛上的经历,当时他跟腾讯总裁刘炽平一起见过面,腾讯正在呼吁 “微信一定不能收费”,并声称腾讯是开放的平台。刘庆峰由此向爱范儿说到,“既然是开放的平台,那么微信平台上第三方 app 或者 (垂直服务)公众帐号,应该是既可以调用腾讯的语音同时也可以选择调用科大讯飞的。”
“腾讯不应该封闭,而是应该让它的用户用到最好的语音识别。” 刘庆峰觉得这个应该是腾讯未来的战略。
微信推 7 个,而讯飞有几十个领域
虽然微信将公众帐号语音识别服务分为了 7 个垂直行业,但刘庆峰表示 “讯飞已经有几十个(垂直)行业在后台。” 另外,他也暗示了微信此举的动因,“其实在语音识别领域,当你的通用识别率做不高的时候,转为在垂直行业中通过垂直行业的数据来形成更好的识别率,这是所有做识别第一就能想到的。”
言外之意,微信可能是希望发力垂直行业来弥补在通用识别方面的短板。
未来最好的语音识别是什么?
当前,几大语音服务商均针对各种垂直行业推出了定向服务,旨在提高语音识别率、增强用户体验,但刘庆峰认为这 “只是技术达不到最高水平的权宜之计”。同时,他描述了未来最好的语音识别:
未来最好的(语音识别)应该是,你一说我就能根据你的说话方式和行为自动对语音进行分类,有些语音可能是医疗的,有些是音乐的。另外,系统也可以自动根据你的口音区分你是东北人,还是安徽人,还是广东人,还可以根据噪音判断你是在客厅、是在厨房还是在公共汽车上。这种才是真正后台构建的全智能化体系。实际上用户在金融领域中其实也有可能说很多其他(领域)的话。
按照刘庆峰描绘的图景,语音识别技术依然有很大的提升空间,而在技术的演进中自然会体现出优胜劣汰。“未来还是要看谁能真的给客户提供最好的服务,让客户认为通过语音能解决他需要解决的问题。谁能做得好,可能客户就会选谁。” 看得出来,刘庆峰对科大讯飞十几年积累的技术功底充满信心。
先构建服务体系,再发力硬件市场
“软硬结合” 是今年科技领域出现频次最高的词之一,国内而言,多家互联网公司推出智能电视、智能手机,以此搭建入口、抢占消费市场。国外,正在往设备与服务方向转型的微软,在 “软硬结合” 的路上愈加坚定,希望以此扩大在消费市场的影响力。
而科大讯飞一直在国内企业市场占据统治性地位,但在消费市场却步履蹒跚。外界颇为好奇,该公司是否会效仿微软追随 “软硬结合” 的潮流推出更多的硬件产品。对此,刘庆峰给出了明确的答复,“我们当然不会排斥这个方向。”
刘庆峰提到了 Google 的玩法,“Google 先有整个 Google 搜索,以及后续的 Android 平台这些软件服务,后来才开始做 Google Glass 这些硬件产品。” 在他看来,Google 正是在软件方面构建了强大的服务体系,才能往硬件方面发展:
构建真正的服务体系,这才是未来最大的商业价值所在,当你这个体系构建完以后,你再往硬件走那是水到渠成的事情。
刘庆峰认为科大讯飞的根本定位便在于,应该 “首先搭建一个基于海量用户的服务体系,同时为全行业提供更多的语音技术和语言理解技术。”