首页>>厂商>>软件开发商>>Microsoft

跨语音交流——同声传译电话不再是梦想

Rob Knies 2010/03/17

  近年来,计算机似乎变得越发有效(responsive)了,人们可以处理非常复杂的文档,存储并筛选海量数据,也可以与世界范围内的众多对象进行交流,而这些复杂任务往往通过简单地点击某个按钮就能实现。现今的计算设备非常善于完成上述类似的任务,并且对于某些任务而言,计算机的功能似乎已经达到了顶点。


  但是这并不尽然,未来的计算机——或许应该说是在不远的未来,比如五到十年后——将会使得现今我们视为奇迹的事情变的完全微不足道。举例说来,现在计算机能够非常好的完成用户的指令;但是如果计算机不用等待用户的指令即可完成某些任务,这听起来怎么样?

  换句话说,如果你的计算机能够预测你的需求并以你的意愿来工作,那又将变得如何?这听起来似乎有点不太现实,多少带有点科幻小说的味道,但是也先别太早下结论。在现今的环境中,我们需要应对急剧增加的数据,一旦计算机能够智能的对这些信息进行分析处理,则将意味着在你睡觉、娱乐或是忙于其他工作的时候,计算机也能够独立的为你分担掉很多工作。

  现在请你想象一下,有一台非常快的计算机,它能够在你为一些事情发愁的之前就帮你把这些事都处理掉;它也能够即时的处理信息,从而使得你的注意力能够完全集中在其他一些更为紧迫的事情上。这样的计算机似乎非常符合现在的白日梦者和技术理想家的愿望,你可能会说,这肯定是个妄想,其野心超出了科技创新的疆界。但是今年微软技术节(TechFest 2010)的参观者可能会有不同的看法。

  现在我们将以微软亚洲研究院的同声传译电话为例,去窥探计算技术的未来:

  假设你是一个美国商人,要与德国的一位同事开会。最便利的方式是通过电话联系,但是这位德国同事并不会说英语,而你自己则只会讲英语。在这种情况下,似乎来不及找一个合适的翻译了,那么你该怎么办?到目前为止,可能的解决方案非常少。但是在不久之后,很快就有一种新的方案面世,因为微软亚洲研究院开发出了一种新的技术——同声传译电话(Translating! Telephone)!

  这一项目把三种关键技术结合起来:语音识别(speech recognition)、机器翻译(machine translation)和文字到语音的转换(text-to-speech)。相信微软技术节的参加者看到这些技术时,肯定无法掩饰自己的兴奋之情。

  “不同语音间的翻译器历来被很多研究者所关注,”Kit Thambiratnam,微软亚洲研究院语音组(Speech Group)的一位研究员说,“但是这种翻译器非常难以实现,需要结合很多目前尚不完善的技术。而我们关注的是自然交谈中的实时性的口语化语言,而不是叙述性的或者结构化的语言,这就越发难上加难。”虽然上述三种相关技术仍然在不断发展,当该项目把这些技术依次串联在一起时,则能够呈现出一种非常稳定的体验。


  上图为从Thambiratnam (说英语) 的角度看到、听到的内容:Seide说的德语被转录为文本,该文本被翻译为英文——上述两种语言的文本都可以在屏幕上看到;Thambiratnam也可以听到英文文本合成的英语语音。

  Thambiratnam说:“当多种不同背景的人需要一起交流时,我们的技术就能提供非常大的便利。”Thambiratnam用同声传译电话展示了这样一种的情景:Thambiratnam说英语,他要给他的德国籍经理Frank Seide打个电话,这个电话是通过VoIP音字转换(voice-over IP)进行的。首先,Seide说的德语被一个语音识别器识别,接着,微软雷德蒙研究院(Microsoft Research Redmond)发明的机器翻译技术把德语翻译成英语,然后再把英文的文字合成为英文语音(通过文语转化的语音合成技术(text-to-speech)实现,下文有介绍),于是,Thambiratnam听起来就像是Seide在说英语一样。同样的,Thambiratnam说的英语也被转化为德语。这样,就可以实现不同语言间的电话对话了。使这一效果真正能够实现的重要一点是保证转换文本能够同时呈现给对话的双方,一旦出现对话不畅时,双方可以根据转换文本重复相关内容来很快的解决相关问题。

  “由于口语与可以用Bing的翻译机来翻译的书面语有很大的不同,这对我们来说是个很大的挑战,”Seide解释说,“所以我们先把口语转化为更加规整的书面语体,然后再把它传递给翻译模块。”

  同声传译系统从英文的VoIP技术(这一技术能够为用户提供电话的实时文本转录)演化而来,这些转录文本可能并不完美,但是它们的优势在于在“剪切粘贴情境(cut-and-paste scenarios)”中可存储、浏览、搜索以及修改。

  另外,微软亚洲研究院语音组的负责人宋謌平博士和他的同事共同开发的文语转化的语音合成技术(text-to-speech technologies, TTS,这一技术能够将文本转化为非常逼真的语音)对同声传译电话的实现具有非常重要的意义,这一技术使得从文本到语音的转换听起来更加自然。

  同时,Seide和Thambiratnam开发的对话语音识别技术也发挥了非常关键的作用。“有句谚语说得很对,‘无用输入则无用输出(garbage in, garbage out)’,获得正确的文本对我们而言非常重要。我们采用机器学习算法来自动形成更为准确的个人化的语音模式,”Thambiratnam说,“用户不需要花费精力,他们只要通过VoIP电话说话就可以了,系统会学习他们的语言,然后变得越来越好,越来越像。”

  考虑到同声传译电话涉及技术的巨大进步,它们对于方便我们日常交流的促进作用似乎指日可待了,Thambiratnam说:“我们要做的还很多,这些技术还很不完美,但是我们认为,这些技术应该足可以帮助两个母语不同的人进行日常交流,只要他们在讲话时稍微仔细一点,并偶尔重复一下模糊的内容。”

图:为Seide和Thambiratnam

  Seide和Thambiratnam对他们的成就以及这一技术的未来发展都比较满意,Seide说:“我觉得最酷的一点是我们把语音识别器中的文本进行翻译,这也就意味着当从一台有屏幕的PC上打电话时,用户就能一边听一边看屏幕上同时出现的部分文本,而不用等待一个句子结束了。”

  当被问及这些技术对跨国交流的作用时,Thambiratnam说:“跨语音交流是计算技术的宏伟愿景之一,我们的这些技术是实现它的第一步,最使我激动的是人们通过我们的技术能够明白对方在说什么(get it)”

  “相信世界上的所有人都会因此而激动,又有谁会不希望拥有这样一个系统呢?这样的一个系统能够完美的将整个世界联系在一起。”

http://blog.sina.com.cn



相关阅读:
微软披露WP7手机应用商店及硬件要求有关细节 2010-03-17
微软为Symbian测试版提供Silverlight软件 2010-03-15
微软推出跨平台游戏预示未来三大平台整合 2010-03-08
微软推出Android平台二维码应用软件 2010-03-08
微软发布适用Android手机平台应用程序 2010-03-04