专访洪小文:大数据没有泡沫只有十年 “鸿沟”
英库输入法是微软亚洲研究院英库团队开发的第二款产品,第一款产品是 2009 年 12 月上线英库词典,后者已经登堂入室,进阶为必应搜索下的必应词典,所费时间不到一年。
在本月初一个采访中,我问微软亚洲研究院创新工程技术总监田江森英库输入法将来有没有可能像词典那样 “扶正”,他回答说 “可能性非常大”,即英库拼音输入法成为 Windows 系统和 Office 软件的启动默认输入法——这无疑将是英库研发团队极大的成功。事实上我们注意到在对外宣传中,英库拼音输入法的缔造者还提到了 “微软中国 Office 商务软件部”,这为将来 “扶正” 埋下伏笔。
在大局已定的中国 PC 输入法市场,英库几乎没有破局的可能,紧盯着明年要卖掉的 4 亿台 Windows 设备显然是更实际的路线。这时候创新变得很重要。8 月 16 日上线的 Beta 版英库拼音输入法的几大创新功能,提交了一份满意的 “模拟考试” 答卷:中英文混合输入,英文输入纠错,V 模式输入地图 / 表情等等,都是具有自我特色的。田江森带领的基础研究团队,也确实没有市场推广的压力,“更多关注的是用户的反馈及用户的留在率”,为此他们在输入法的输入框显眼处放置了一个用户反馈按钮,来接收用户的反馈。
上面说到的 “V 模式” 创新,是指由于中文输入过程中,“V” 字母不能单独成字或作词首,被英库团队用作功能键来激活一些特别功能,比如 “VM” 开始调用地图数据,“VI” 开始调用图片数据,“VW” 则调用网页数据。举例来说,假如你与朋友约好去 “钱柜 KTV”,在 QQ 聊天界面,输入 “VM:qiangui KTV” 即可获取 “钱柜 KTV” 的地图数据,向好友直接发送地图即可。
(左一为田江森,中间为英库拼音输入法项目主管 Matt,右一为研发工程师刘未鹏)
这里涉及到 “大数据可视化” 的专业技术,是微软亚洲研究院目前正在致力于研究的领域。而与以往埋头研究不同的是,随着互联网的兴起,微软亚洲研究院在五六年前提出 “以实践为驱动的研究(DDR)” 的研究理念,鼓励基础研究员以实践驱动为需求,开发面向用户的产品。英库词典是其一,去年 10 月开始立项的英库输入法也是 DDR 理念下的项目之一——当然,众所周知,微软在自然语言方面有深厚的积淀,虽然英库团队只有 7、8 人做输入法,但显然是站在巨人的肩膀上。
“实践驱动型研究” 在洪小文 2007 年上任微软亚洲研究院院长之后得到贯彻执行。洪小文毕业自卡内基梅隆大学计算机专业,语音识别专家,是李开复的师弟,师承鼎鼎有名的图灵奖获得者罗杰·瑞迪。在英库输入法团队采访结束后,爱范儿对洪小文进行了专访,他对于过去几年的 DDR 理念执行效果感到满意。而在谈到他的本行 “机器学习” 时,坦言 “机器学习一个很重要的关键是要得到 Data”,没有数据或只是假数据,“一定做不好机器学习”,而在使用机器学习的成果时,“数据可视化” 也非常重要。
我们也提问了他对大数据火爆现状的态度,他认为与其说是泡沫,不如说是距离大数据的应用还有 “鸿沟”(gap),其所带领的亚洲研究院即致力于研究大数据在机器学习中的更多应用场景。洪小文 1995 年加入微软之前,曾经在苹果公司工作,研发了苹果中文听写机产品,所以语音技术是洪小文真正的 “老本行”,对于语音技术的未来,他期盼一个 “万能的助手”,目前语音识别已经发生了,“会思考的助手” 普及开来却还须时日。
ifanr:“实践驱动研究” 理念什么时候提出来的?现在你回过头来看的话,您觉得这个理念实际效果怎么样?
洪小文:至少六年前就提出这个理念。今天来看觉得非常好,它的发展和成熟显然是要经过一段时间的,因为研究很多时候是有一定的研究的模式,提出一些新的研究模式的时候总要经过一段时间。而且有些东西就算你百分之百相信,很多东西你还是要做得够好,放出去别人才能够像正常的情况去用。我们以前做实验都是找一些人在虚拟的情况之下做一些东西,然后问一些问题,那些都是离现实有差别的,因为你会跟他讲假设这个产品怎么样,你会不会去用,人家都是用想象,都不是目前真实的场景。所以今天我们 DDR,就像英库拼音,我们希望你是在真正工作场景来用这个东西,那就是真实的;假如我花钱请你到实验室,你打几个字,你打的东西都是你想出来的,不见得是你工作中会去打的字,这是不真实的。我们希望以后多用 DDR 理念来做研究,到真实的场景里来做研究。
ifanr:根据我们了解到的信息,微软总部今年对对机器学习尤其重视,包括刚才说的音库输入法也是很好的机器学习案例;从竞争对手来看,Google 在 6 月发布的产品也开始凸显机器学习,比如根据搜索历史推荐一些东西。 未来亚洲研究院在机器学习这一块是怎么布局呢?
洪小文:机器学习也是我的本行。机器学习在研究范围至少红了十五年——我们现在讲的 “机器学习”,在我念书的时候(1992 年毕业)叫人工智能,当时人工智能分好几个派:有些用逻辑的,有些用专家系统,有些做语义,还有有一个派是讲 Data。今天人工智能这个领域也被机器学习占了,所以机器学习在研究院过去十几年都是非常红的。从我们的角度来看,机器学习的红火我们觉得一点都不意外。
机器学习今天这么普及,跟我刚才讲的 feedback loop(反馈循环)有关,就是 big data(大数据)。机器学习很关键的是你要得到 Data,机器学习这里面很多学问,机器学习的模型之类,但是你空有很好的模型,你没有数据——接近真实的数据的话,这个系统是做不出来的。
早期的时候,我们把机器学习叫 “训练数据”,比如今天观察到一些数据,我怎么样用这个东西去建模,然后我可以去预测未来我还没看到的数据?从统计角度来看,如果我将来预测的数据跟今天的数据分布很类似,那我这样做出来的模型一定会很好。假如我未来看到的 Data 跟我的 training 的数据很不一样的话,这是一个不好的模式。另外,真实的数据肯定跟你通过系统建模搜出来的东西有出入,这个时候机器学习学了半天,还是要去研究如何来运用这个数据,所以我想机器学习的普及跟所有的 big data、互联网都有非常大的关系。
机器学习我想每个公司,不只是微软,像图灵奖今年的得奖者跟去年的得奖者都是做机器学习的,也代表机器学习普及火爆的程度,而且今天机器学习已经红到各行各业。比如一个做贸易的,我能够很快地知道用户的反馈,而且不但是对我的反馈,对我相关产品、竞争产品的反馈——你会把 big data 变成有用资讯最后变成一些情报,能够帮助你来做一些产品上的改变,甚至于大的方向的改变。这些都是有很大的商机。
你可以看到,今天做研究的,做各行各业,只要有数据都要想办法去取得,都要想办法去用,都要想办法把这些数据变成有用的信息。所以我认为数据的可视化非常重要。因为做决定的人不是像研究员每天在那边看这些数据,他需要可视化的东西帮助他下结论做决策。所以必须是从微观的数据变成一个越来越宏观的可视化的东西,才能帮助他做一个宏观决策上面的改变。
ifanr:大数据在今年年初开始特别火,您怎么看这种现状?
洪小文:从我的角度来看,我们几年前就知道这个东西了,只是说今天火到访问任何一个 CEO,他都会告诉你我要 big data,学以致用、研以致用已经到了这种地步了,所以对我们来讲是非常令人振奋的。
ifanr:算不算泡沫?
洪小文:我认为不是泡沫。你可以说有泡沫,也可以说没有泡沫。第一我觉得没有泡沫,我觉得是真的,因为大家都愿意。泡沫是在于到底能够做得多好,自动化的东西能够做得多好;没有泡沫是指如果将人的智慧加上机器的分析,然后合起来把这个东西做好,这是还需要努力的。
现在关键是一个产品我可以做得多好,能够自动化到什么地步,特别是微软这样做平台的公司。我们举个例子,我是一个老总,我对这个技术也不懂,我喜欢 big data,那么今天你把 big data 可以卖给我,这个老总知道这个东西能做什么,对他有什么样的价值,他愿意花多少钱;另一种是我今天花钱买的这些软件,然后收集了一些 Data,这些都要花钱的。同时,我说不定还要找一些数据科学家,这些数据科学家不但了解 big data,他同时也了解公司细节、经营模式。现在做的 big data 软件,是不是任何人就可以把它用起来,这还是有一段距离的。
如果说今天这个公司愿意花投资,不但买这个软件,同时也雇这些数据科学家,同时这些数据科学家又懂机器学习,又懂 big data,同时也去学他的公司的每一个细节。假以时日,他绝对可以做出一些有用的东西,但是这个花代价是不是这个老总愿意花的钱。我们的目标是让老总完全依赖软件,像 Word、Excel,封包好,拿来直接用就可以了。所以与其说是泡沫,不如说技术现状与未来应用之间还有一条 “鸿沟”(gap)。
我们怎么样才能做到大家付的钱可以付的非常的合理,又有个 Turn-Key Solution(完整解决方案)?我觉得还有一段相当长的距离,我个人觉得起码是十年要能够做到那个地步。
ifanr:您早期在苹果工作,是语音技术方面的专家,进入微软刚开始也是从事这一领域的研究,因为专长所在,微软亚洲研究院对语音技术肯定有很深入的研究。刚才我们谈到了英库,那么您觉得语音成为一种普及的技术需要多久?
洪小文:讲到这个东西的确蛮有感觉的,因为我做语音从 1986 年到现在快三十年,我老板跟我讲的,任何时候对于做语音的人来说,“你要什么时候普及”,他说五年以后;唯一的问题就是说你三十年前问他,他说五年以后,你现在问他他还说五年以后,意思就是说永远五年以后。
大家对语音的看法其实是蛮复杂的,为什么呢?语音只做输入是非常准,但在更高级的应用场景是 “你讲它做”,比如说我现在想知道下个礼拜跟黄先生要不要见面,或者说我上一次跟黄先生见面是什么时候,就是说我问一个问题,它会有一个答案,大家更加期待的是这个一个 “万能的助手”。如果只是录入,有时候反而显得 “多余”。譬如说我今天要写一篇文章,写文章我就要思考,你认为用讲的跟用打的哪一个自然?很难说,因为你本来就爱思考,又不是念别人的文章把它输入进去。
所以你发现你要的其实不只是语音识别,而是语义。我用语义把问题输入。问什么问题都可以答出来,而且答的都很精准,但这个很难——语音系统对于自己知道的东西会答得很好,但对于它不知道的问题,就会很棘手:它不知道自己不知道——它如果说它不知道就已经很了不起了,它还想办法去答。
其实机器比我们强的地方也不是什么智慧,大部分是一些储存,因为我们记不了那么多东西,比如说开根号,下棋跟开根号也没什么两样,下棋是在分析我如果下这步,你可能下这三步或者四步,如果你选这步,我就会选这样,其实看谁开的深。那不是我们真正讲的智慧。我们这种举一反三智慧,机器几乎是做不到的,所以我们需要一个语音系统,要能解决所有人工智能的问题。现在在一些特殊的场景,譬如说手机,在某一些情形之下可以做得不错,可能就很有用了。
应用场景方面也有很大的改进空间。比如对于未知的事物,我都不知道怎么提问的时候,语音搜索或许能帮我解决不少困惑。比如我现在要找北京或者海淀区的星巴克,找这种不知道的东西的时候,语音的帮助很大。如果很多人说将来语音取代我们的电脑桌面,我觉得技术层面还有距离,而且我个人怀疑那个是不是好的界面。但你如果说语音在很多特定的场合帮助你的话,事实上已经发生,尤其开车,语音的输入就变得很重要。
ifanr:微软亚洲研究院在移动互联网这方面有专门的研究课题吗?
洪小文:有,就刚才讲 Face Party,那些都是在手机上,然后还有学术搜索,英库,当然这是移动互联网的应用。移动互联网下面核心的技术,这通常比较不容易展示,当然我们做了很多像下面几块。
第一个 Power,就是怎么样节省电量,在系统的层面上,怎么样能够做好的设计,能够让它节省电量,特别是在一些跟网络相关的技术。不管是 WiFi,或者是 3G、以后的 4G,上面还是有很多 power 是可以省下来,这方面我们做了一些工作,而且也在技术转移的过程。
还有一个是叫室内导航。室内导航我们有演示,你到时可以过来看。室内导航是这样,我讲室外导航大家都知道,GPS 导航,室内导航 GPS 不能用了。室内导航通常有几种做法。它有用 WiFi 的:一个房间、一个地方装好几个不同的 WiFi,然后根本不同地方的强弱,它是跟着具体地址,不是很准,但是你可以想象得到,假设现在这个的 WiFi 收到你手机的信号强一定,那你大概就在这附近,大概是这样做,但你要做得很准,而且方向还是有相当的研究的点,很难。
我们用的方法,手机里面现在都有指南针,也有陀螺仪那种东西,这里面,一个指南针是可以看方向;另外陀螺仪的话,因为你走的时候不管你手机怎么放,他是 S 型走,会生成一个函数,你往一个地方走,根据你陀螺仪所拿到,陀螺仪可以量加速度,你可以从加速度里面可以推算出以往走的距离。这里我们要收集数据,这跟刚才讲的大数据有关,我们就找一些走模。像我们做 TTS 有口模,我们要找一些走模,拿一些不同的机器去走,走了以后把加速度的信息拿下来,同时它到底走了多远,这个信息拿下,然后我们这样就可以去建模,我们建模以后,到时候我就可以用你的加速度预测你到底走了多远,我们还是可以做得不错。
另外陀螺仪跟指南针、地图是相配合的。因为上面这种方法只能知道你走了多长,但是你还是要有地图,要配合地图才能够去导航。虽然刚刚讲到的加速度这些参数范围很宽,而且也会有些误差。但是我们其实可以做到就是说个性化,为什么呢?我估计你走多远,一定跟实际会有一些误差。但是你每一次转弯的时候,你一转弯的时候,我就知道你真正其实走了多少,跟我估计之间的误差是多少,所以我可以不断地修正。就你如果一直走,你如果一直走得不转弯的话,那我很难知道。但实际地图它知道这个点到那个点多长,假设它是 100 米,你一转弯的时候,我们才估计你走 80 米,代表我的估计就低估了,那我下一遍的,你就可以想我就把它 ×1.2 倍,不断地我可以做这些调整,这样的话我可以做得更精准,更有个性化的。所以我们在这方面也做了一些工作。
另外,我们还做了一些,可能更久远的,这个希望能在未来可以看到我的产品。因为比如说我们拿手机上面的麦克风,可以用手机发出一些声音,你听不到,但是麦克风可以听得到,因为你知道麦克风有一个音频,就像我们常常说狗和猫可以听到音频的声音,跟我们不一样。所以我可以让这个手机发出一个音频,每个手机之间互相发出音频,利用这个东西我可以知道这两个手机的距离,所以我们也在做一个东西,就像星际大战里那样,你可以拿两个手机击剑。而且我们甚至可以发现,我们手机很厉害,你把它靠近你,我们这个人的血管的脉动可以做一些健康的东西,测一些心跳、甚至高血压或者什么之类的。当然这个比较久远,其实是广义物联网,因为你手机上面有一些传感器,它就可以去采样特别是跟你人有关的,甚至我们还有人在做能够预测到你的心情,你是不是生气、你的声音提高了,是不是跟人吵架了,马上给你返馈让你调整,耐住性格,尤其是跟人家谈判的时候。
ifanr:最后一个问题。微软宣布 Kinect for Windows 会在 10 月 8 号会进入中国。微软亚洲研究院在这方面有什么样的贡献?
洪小文:你们消息很灵通。其实我们有很多,我们很多都有演示,我可以给你提几样。就是在 Kinect 上面,一个叫用户识别,不管是玩游戏,有时候在镜头前可能不只有你一个人,可能是有两个人,知道这个是张三、李四,不要张冠李戴,不要把张三的手,变成李四的手了,因为四个手在那边动。目前的版本,它可以识别 8 个人。它看着你的脸,而且我们用了脸的信息,用了身高比例。身高比例比如说你的手的长度,腰、腿的长度,甚至你的衣服,我们这些都用,只要你不换衣服就更准了,就这些东西你就把登录起来了,登录起来以后你下次再进来就知道是你,我们可以登录 8 个人,它可以同时分辨出 4 个人,而且手和脚不会搞错,这是用户识别。
其次 Kinect 上面有 Avatar,有时候我们跟人家聊天,你可以用视频,有时候你可以用一个卡通,或者一个真人形象,有时候你跟人家交谈。我们希望做到是这样,我们希望因为个人隐私,你不见得希望让人家看到你真正的长相,但是你可能用一个神情类似你的,但是希望你笑的时候这个形象也笑,你眨眼的时候他也眨眼,你转转鼻子他也动,所以我可以把那脸部的动作就放在这个 Avatar 上面,这样的话,你跟人家聊天的时候,我们有在 Kinect 就可以做这个东西,感觉是一个真的你,但是又保护你的隐私,我们甚至想到过,以后我们有这个技术就可以做到这样,我们叫做 “加强的你”。
什么意思呢?比如说早上起来,早上刚起床,假设你跟你父母要要通视频电话,然后你蓬头垢面,还没梳头、还没刷牙,但是这时候你不想你父母看到,那怎么办?我们可以做一个,先把你的头 3D 建模,我们这个也做了,还包括头发,而且就在 Kinect 上面——以前不知道多少超级计算机在做,有了这个以后,一样的,我这时候是把一个你平常比较帅的形象摆出来,但是你这样摆出来那是一个假的,我们把你当时实时的脸部的表情投射上去,这样的话,这其实又是 “真实” 的你,虽然不是那个时候的你,但是你可以控制你不用担心还没有刷牙,不要说我还要先刷牙、我要先梳头,人家可能不能等;这时候你就可以控制,你还是你,你笑一下你嘴的动作还是你那个时候的动作。
我们还在继续做未来的一些事情,比如说点头。我问你要不要吃饭,你点点头、摇摇头,甚至眨眨眼就可以了——头部的动作也在 API 里面。这样你写东西的时候,你可以用头部来。就是说现在 Kinect 可以做四肢运动,将来还可以做头部运动,瑜珈之类的都可以。再往远处,可能还有手指的动作,当然,这个会比较难一点。