• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

专访科大讯飞副总裁江涛:语音识别的成熟依赖 “云、管、端”

公司

2012-12-14 12:40

回溯起来,中科大语音实验室算的上是科大讯飞的孵化地。1990 年,刚刚进入中科大电子工程系的刘庆峰(科大讯飞总裁)打算转系到感兴趣的数学系,然而这时,他却遇到了改变人生轨迹的导师——国内语音合成技术泰斗级人物王仁华教授,并在其影响下加入了中科大人机语音通讯实验室。

保送读研期间,刘庆峰继续在实验室工作,并成为语音合成项目组组长。1998 年,他的语音合成技术在国家 863 项目笔记赛中获奖,并首次达到实用化标准。在此激励下,刘庆峰和江涛(科大讯飞副总裁)等人开始了创业之路。

“当时我们的理想是一年销售 100 亿。” 在接受爱范儿的专访时,科大讯飞的副总裁江涛在回忆峥嵘岁月时依然慷慨激扬,他表示,创业之初几个人就希望能够在消费市场建立起一个家喻户晓的品牌。

世纪之交,科大讯飞第一个语音识别产品 “畅言” 面世,这是一个面向 PC 端的语音识别软件,它旨在将语音和键盘、鼠标两种交互方式融合, 用户可以使用语音控制电脑、语音输入甚至语音排版。然而,由于当时的环境以及软件售价太高,这款软件的市场表现非常惨淡。

“那时候,我们开始总结像我们这样的软件公司的出路。” 江涛说当时他们总结出了三条道路,一条将软件做成服务,一条是走软硬结合的道路,一条是做成行业软件。“这是 90 年代末,中国所有软件公司都在思考的问题。”

家用软件 “畅言” 失败后,科大讯飞开始尝试 B2B 的商业模式,它先后与华为、中兴等一大批做系统集成的企业合作,为这些企业提供核心语音服务。事实证明,这是科大讯飞第一个成功的商业模式。

2005 年,公司研发出语音评测技术,该技术可以通过语音识别对发音进行评分、检错并给出矫正指导。利用语音评测技术,公司走上软硬结合的道路,在教育市场推出了 “畅言教具”。后来这套技术推广到音乐领域,作为某些歌唱比赛的评分系统。

大约在同期,移动运营商的彩铃业务开始兴起,科大讯飞借机研发了一套音乐语音搜索系统。经过之前的思考和总结,公司选择与运营商合作运营的方式,而非直接出售系统。 至今,音乐语音搜索仍然是公司一个重要的业务方向。

事实上,国外的月亮也不圆。IBM 在 1998 年将一项轰动性的语音识别技术—— ViaVoice 从战场推向市场,但是同样免不了失败的结局。

“ViaVoice 基于单机系统,当时没有云计算的体系。另外,键鼠在 PC 端已经解决了常规的交互需求,语音需求空间有限。 ” 江涛总结了这两方面的原因。

说到底,语音技术未能形成一方之势还是囿于时代的脚步。

“我们也在等待这样一个机会。” 江涛说的这个机会正是移动互联网。他认为,语音技术的成熟需要三个方面的推动——“云”、“管”、“端”,即云计算体系满足资源共享、成熟的无线网络和便携的智能终端。

2009 年,3G 服务开始在国内运营。科大讯飞紧锣密鼓地投入力量进行研发,在 2010 年 10 月推出了讯飞语音云。目前,用户已经突破 1 亿。

“巨头的教育能力非常强。” 江涛坦承,语音技术的发展离不开诸如苹果 Siri、Google 语音搜索的推动。

ifanr:你如何看待苹果和 Google 两种不同语音识别技术?两者的价值体现侧重点有什么不同?

江涛:Siri 通过语音识别转换成文字与人交互,而 Google 由于是搜索引擎厂商,它可以做第二步。Google 可以在其热词列表中进行匹配,它融合了前人搜索历史。

苹果和 Google 在语音识别技术上的应用点不同,苹果本质上是个硬件厂商,所以包括 Siri 在内的服务都是为硬件服务的,它就是让整个设备显得更有趣、更炫。Siri 显然为 iPhone 赚足了眼球,在后面的服务尚未形成价值之前,它首先让 iPhone 4s 大卖了一把。

Google 的侧重点在搜索服务,所以它的语音搜索在朝 Google Now 方向靠拢。

ifanr:尽管都在说语音可能是下一个交互革命,但目前这种基于自然语义搜索服务包括 Siri 的娱乐意义仍然大于实用价值,你认为如何提高这类服务的实用价值?

江涛:这正是我们科大讯飞最关注的、要与同类产品错开定位的地方。我们也一直强调 “讯飞语点” 以及与中国移动发布的 “灵犀” 的实用价值,而非娱乐价值。

产品发布半年来,我们重点在改进打电话、发短信、通讯录等用户每天使用到的服务,包括个性云识别,比如我们在用户通讯录信息的识别是非常准确的。

另一方面,我们重点打造语点和灵犀集成的相关服务,比如用户可以直接在灵犀中语音查询手机话费,也可以语音搜索歌曲,在线听、下载甚至设为彩铃。此外,还包括查询、预定机票等服务,这些都是 Siri 不具备的。

ifanr:语音识别的发展出现了两种趋势。第一种是语音搜索走向细分领域,比如专注于旅行服务的 Desti,专注于银行业务的 Lola。另一种趋势是做平台,集成各种互联网服务,通过开放 API 调用各种垂直服务的数据,将智能语音搜索打造成 “海纳百川” 的信息服务。你是如何看待这两种趋势的?

江涛:我举个语音识别在商业上成功的例子。全球最大的语音识别公司 Nuance 在利润中占比很大的一个业务是——Medical Transcription,这是 Nuance 针对美国医疗处方必须在线备案推出的语音识别系统,由于替代了昂贵的人力,这个产品大卖,公司挣了很多钱。

我认为像第一种细分领域会先成熟,在一定的领域内,语音交互的体验能做到更好。对应到我们的产品,我们不会从一开始就告诉用户产品囊括了一切,而是先把音乐、出行关乎衣食住行的重点领域做深做透。

当然,随着语音识别技术的发展,特别是人工智能、大数据处理能力的提升,基于语义网、知识图谱构建出真正的全开放的语音平台是值得期待的美好图景。对于当前,可能还为时过早。

ifanr:此前中国移动 13.63 亿注资科大讯飞,在智能语音门户、智能语音云服务、智能语音技术和产品、客户服务应用、基础电信业务及行业信息化等领域建立战略合作。对于中国移动而言,形成移动互联网的入口平台,对于科大讯飞,除了资金和用户,价值还体现在哪些方面?

 江涛:资金和用户也是很重要的。因为移动互联网的特点是必须要先投入,形成海量用户了以后才有比较大的商业价值,无论是百度还是腾讯,历史都已经证明了这一点,所以中国移动的这个资金进来,加上讯飞本身,让我们的现金链更好,所以我们已经为移动互联网未来的竞争准备粮草,打持久战。

另外就是中国移动的用户规模,它 6.7 亿的用户跟我们普通互联网层面讲的用户不是一个概念,它是真正掏钱的用户了,而且这些用户都在保持着联系,所以这个用户转换成为讯飞用户的可能性是很高的。

当然,最重要的一点是中国移动后台海量的服务,这就回到我前面讲的我们语点和灵犀跟其他竞争产品的定位差异,我要做实用,怎么能做到实用呢?中国移动他已经有九大基地了,音乐、视频、动漫、游戏、应用、应用商店,还有几大服务基地:位置基地、电子商务基地、互联网基地等,这些服务要送到用户面前已经是一种最好的交互界面,反过来,对于灵犀来说,这些内容又进一步的让产品实用。

除此之外,中国移动的服务资源方面,比如说他后台的客户服务系统,最典型的还有查话费、查流量,这个都是中国移动所独有的资源,相对来说也是最准确的。这也给讯飞产品增加用户粘性。另一方面,这也给中国移动来说降低了成本,过去用户查话费、查流量,如果以客服进行,平均下来服务是每分钟 5 毛钱,如果在语点、灵犀里面提供,成本就很低。

ifanr:可能说移动互联网的勃兴让移动设备与语音识别技术紧密结合,您觉得在未来语音识别技术还可以在哪些领域拥有广阔的前景?

江涛:我们认为 “三架马车” 是最重要的。第一是手机终端,这个增长也是最快的。第二是汽车,随着汽车逐渐走进大众家庭,汽车的电子化逐渐发展。比如去年广州车展最火热的荣威 350 就搭载了我们的智能语音技术。第三个就是智能家电,以智能电视为代表。过去我们看电视主要交互手段是用遥控器换台,但是当频道数多到几百个时,换台就很痛苦。所以说,语音是最重要的一个交互手段。

ifanr:苹果涉及核心利益的应用一直比较排外,讯飞语点从今年 6 月份提交至今也未能上架 App Store,能否透露一下进展?因为我们看到,搜狗语音助手刚刚上线。

江涛:搜狗也是在借鉴讯飞教训的基础上,对很多调用苹果系统的很多核心功能进行了精简,这就缺失了很多实用的功能,比如打电话、发短信。后面我们也可能会适当地进行一些调整,但是这可能会对用户体验造成损害。

ifanr:我们也看到讯飞已经和不少硬件厂商展开合作,但事实上这种集成仍然会因为机器差异体验不一致,仍然有很大的优化空间。而 Siri 的一大优势在于服务系统级以及和硬件的整合,讯飞未来有没有大规模进军硬件走软硬结合的想法?

江涛:这个肯定不可能。我们还是继续通过合作来弥补这一块的短板。后面我们会和手机厂商进一步探讨如何深度整合的问题,比如一键呼出讯飞语音等功能。语音的特点就是它涉及的东西太多了,所以我们更应该想清楚,千万不能一不小心扎到具体的硬件研发中,这是永远都做不完的。

不光是手机,汽车、电视等领域我们都会坚持走这一条道路。

ifanr:科大讯飞长期以来都是一个技术提供商,你们是如何看待企业市场和消费市场的?

江涛:科大讯飞是从企业市场 B2B 起步的,相对来说,企业市场是比较理性的,客户是专家级的,而且它有专业的评估手段,所以企业市场上拼的是技术。而在消费市场上,“酒香也怕巷子深”,还需要策划、推广的能力,这也是我们所欠缺的。不过我们也开始有所尝试,比如推出的讯飞输入法,就是为了满足消费者的需求。

 

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中

从技术的旁观者与记录者,成为技术影响生活方式的实践者。

本篇来自栏目

解锁订阅模式,获得更多专属优质内容