首页>>>技术>>>语音应用>>>语音识别(ASR)  语音识别产品


ASR:“说得出做得到”

——语音识别技术正在走进大众生活

陈青松

  爱看科幻电影的朋友恐怕都不会忘记,在影片中常常有以声控方式来操纵汽车、电脑及一切电器的情节,而现在人们依靠电脑电话整合系统CTI(ComputerTelephoneIntegration)技术已经让这些科学幻想走向现实。例如,当你对着某品牌手机直呼某人姓名时,就可以自动拨通对方的电话;三菱汽车推出的Galant车款,驾驶员也可透过声控来操作音响等设备。

  所谓“电脑电话整合系统”CTI,其实就是我们熟悉的“电话语音系统”。在通讯日渐发达的日常生活中,CTI已到了无所不在的地步。打电话到车站订票、到医院挂号,接听电话语音广告,银行的查帐、国际长途通讯的网络电话等等,这些都是CTI领域下的产品。而这些产品,若继续延伸到新的发展趋势,除了网络电话的发展模式较为独立之外,语音辨识和自动话务系统两者将会是未来市场的主流。

  CTI的核心技术就是电脑语音辨识系统的应用。电脑语音辨识系统可分为二种:一是个人使用;二是大众服务。个人使用的语音辨识系统在技术上较容易实现,如IBM等公司开发的语音输入法已在市场上销售。这种个人用的语音辨识系统具有几个特点:一是产品使用者单一,二是词汇简易,三是电脑学习使用者语音特点的机会多。此类产品目前能够走向市场化,主要是因为他们采取的是“片语式”辨识,藉由特定词汇、片语,电脑很容易学习和熟悉这些指令;同时,操作者的多半是某个固定的使用者,只要经过多次的练习,电脑可以很快地熟悉这些特定的发音和语句。

  另一种供大众使用的语音辨识系统,如:用于大型电脑服务需求的金融机构、电信公司、航空和铁路等部门的自动话务系统(CallCenter),其技术层次较高,目前国内这类产品投入商业应用的极少。这主要是由于目前的语音辨识系统至多只能做到“条件式”的阶段(注:“条件式”语音辨识,是指电脑在有限的条件下,才可以执行的声音指令。)

  当然要达到无所不识的“自然语音辨识”水平还是一个长远的目标,预计可能还要几年的时间才有可能成熟。其中的技术“瓶颈”关键在于语言的千变万化。语言当中的声纹和语意的分析,可说是对电脑的两项极大的挑战。

  在声纹方面,电脑接收声音的环境必须很单纯,而在人类语言当中,夹杂了太多的同音、相似音和腔调,光是数字“一”和“七”的发音就容易混淆;相较于声纹的掌控,语意分析对电脑程序设计人员更是一大挑战。一个人若不是照着规矩讲话,可能会造成电脑的误判和混淆,而一句话的意思该怎么表达,不同人往往有不同的习惯。

  除了上述两种问题之外,还可能出现速度问题。有些人说话速度快,有些人说话速度慢,而电脑在处理各种南腔北调时,如何在最短时间内辨识出其中语意,将会是非常重要的一环。

  为了解决语音问题,业界最普遍的做法,就是针对某一行业某个领域,依赖归纳法,搜集大量的专有词汇及语法,进行分类归纳后,储存在电脑中用来在以后辨识中应用。目前解决这些技术难题较成功的有美国Nuance公司,据称其语音辨识系统已达到了97%的效果,但中文的辨识能力有多高,目前还在评估之中。现在许多国际大厂商,如IBM、英特尔和西门子等都在这方面积极开拓,可以相信不久的将来,语音辨识系统的应用将会更加大众化,让人们的生活更加随“语”所欲。

 



相关链接:
主要语音引擎及开发工具 2002-01-30
声扬语音识别系列开发工具 2002-01-30
IBM ViaVoice语音软件开发工具 2002-01-30
语音识别的应用前景 2002-01-30
语音识别技术的发展趋势 2002-01-30

分类信息:     技术_语音识别_文摘