重建巴别塔,Google 翻译与语言壁垒
《圣经》中,讲到了各种不同语言的来历。人类希望建造一座名为 “巴别塔” 的高塔通往天堂,上帝感到事情不妙,于是让人类说不同的语言,于是人类就无法沟通,合作建塔计划宣告失败,人类也开始四分五裂。
语言不通确实对合作沟通造成了不小的负面影响,翻译也成了一项高端洋气上档次的工作,尤其国家领导人身边的同声传译,在媒体宣传下颇有些传奇色彩。另一方面,随着计算机网络技术以及数据技术的进步,机器翻译也有了用武之地。Google 翻译服务就是其中代表。
Google 翻译团队负责人 Franz Josef Och 来自德国西南部的一个小山村,他的终极目标是制造出一台完美的翻译机器,小巧精致,快速准确,适用性广泛的翻译机器。在他年少时,就梦想这台机器能够模仿人类的特性。后来他获得计算机科学博士学位,研究人工智能,在 2004 年被 Google 联合创始人 Larry Page 拉入公司,成立 Google 翻译团队。
Google 实验室里有着各种稀奇古怪的项目和目标,Google 翻译的目标则是终结人类语言的壁垒,虽然 Google 翻译离这个目标还差了很远。
目前,Google 翻译可以在 71 种语言中互译,也可以进行网页翻译,手机端也有相关应用。这项 Google 翻译服务在去年已经被使用了 2 亿次,目前还是免费的,但是翻译作为一种服务和工作,其未来商机也不容小觑。
Google 作为一个工程师气质非常明显的公司,对于算法的依赖非常之重,包括其完善学习过程也是通过收集处理数据来完成的。比如说,在把一句法语翻译德语的过程中,它将在计算机中搜索匹配的短语,然后基于信息进行最佳搭配。通过算法当然是非常高效的,但是语言并不一件简单的事物。在 Google 翻译过程中,语法、语调和歧义仍然是难以解决的问题。通常情况下,Google 翻译的句子仅能提供大义,但是别指望它有什么流畅度和语言上的美感。
在 Google 看来,站在翻译程序的角度,在语言结构、语法还有构词法方面有着大量数据可供挖掘。Google 翻译团队也是典型的工程技术人员组成,却鲜有语言学家,不得不说这是一件很奇异的事情。
不仅仅是 Google,Facebook 和微软也在进行类似的机器翻译项目,欧盟在进行 MT@EC 项目,预计在未来几年内将减少 10 % 的人工翻译量。
跟常规人工翻译不同,机器翻译胜在效率,但是目前的机器翻译流畅性、准确性和文学性仍然是一塌糊涂的程度。
上面选取了莎士比亚十四行诗第十八首中的一句,然后用 Google 翻译进行翻译,翻译结果只能说是让人不知所云。Google 看重的数据和算法在莎翁的名句之下毫无用武之地。
以数据和算法方式做翻译可以让翻译系统会随着数据的积累而不断地学习改进,但以 Google 翻译为代表的机器翻译离摧毁语言壁垒重建巴别塔的目标还有极远的路程。
我相信以后机器翻译适用性会比现在好很多,通顺准确的目标可以达到。但我怀疑,Google 这种纯工程师思维的翻译方式只能让语言翻译停留在传递语义的层次,而语言中蕴含的情感和美感始终无法被代码所理解。
Jelinek 那句 “我每开除一名语言学家,我的语音识别系统错误率就降低一个百分点” 的名言这里有必要再思索一番了。
题图来自:artbible