ASR：“说得出做得到”_语音识别

ASR：“说得出做得到”

——语音识别技术正在走进大众生活

陈青松

　　爱看科幻电影的朋友恐怕都不会忘记，在影片中常常有以声控方式来操纵汽车、电脑及一切电器的情节，而现在人们依靠电脑电话整合系统CTI（ComputerTelephoneIntegration）技术已经让这些科学幻想走向现实。例如，当你对着某品牌手机直呼某人姓名时，就可以自动拨通对方的电话；三菱汽车推出的Galant车款，驾驶员也可透过声控来操作音响等设备。

　　所谓“电脑电话整合系统”CTI，其实就是我们熟悉的“电话语音系统”。在通讯日渐发达的日常生活中，CTI已到了无所不在的地步。打电话到车站订票、到医院挂号，接听电话语音广告，银行的查帐、国际长途通讯的网络电话等等，这些都是CTI领域下的产品。而这些产品，若继续延伸到新的发展趋势，除了网络电话的发展模式较为独立之外，语音辨识和自动话务系统两者将会是未来市场的主流。

　　CTI的核心技术就是电脑语音辨识系统的应用。电脑语音辨识系统可分为二种：一是个人使用；二是大众服务。个人使用的语音辨识系统在技术上较容易实现，如IBM等公司开发的语音输入法已在市场上销售。这种个人用的语音辨识系统具有几个特点：一是产品使用者单一，二是词汇简易，三是电脑学习使用者语音特点的机会多。此类产品目前能够走向市场化，主要是因为他们采取的是“片语式”辨识，藉由特定词汇、片语，电脑很容易学习和熟悉这些指令；同时，操作者的多半是某个固定的使用者，只要经过多次的练习，电脑可以很快地熟悉这些特定的发音和语句。

　　另一种供大众使用的语音辨识系统，如：用于大型电脑服务需求的金融机构、电信公司、航空和铁路等部门的自动话务系统（CallCenter），其技术层次较高，目前国内这类产品投入商业应用的极少。这主要是由于目前的语音辨识系统至多只能做到“条件式”的阶段（注：“条件式”语音辨识，是指电脑在有限的条件下，才可以执行的声音指令。）

　　当然要达到无所不识的“自然语音辨识”水平还是一个长远的目标，预计可能还要几年的时间才有可能成熟。其中的技术“瓶颈”关键在于语言的千变万化。语言当中的声纹和语意的分析，可说是对电脑的两项极大的挑战。

　　在声纹方面，电脑接收声音的环境必须很单纯，而在人类语言当中，夹杂了太多的同音、相似音和腔调，光是数字“一”和“七”的发音就容易混淆；相较于声纹的掌控，语意分析对电脑程序设计人员更是一大挑战。一个人若不是照着规矩讲话，可能会造成电脑的误判和混淆，而一句话的意思该怎么表达，不同人往往有不同的习惯。

　　除了上述两种问题之外，还可能出现速度问题。有些人说话速度快，有些人说话速度慢，而电脑在处理各种南腔北调时，如何在最短时间内辨识出其中语意，将会是非常重要的一环。

　　为了解决语音问题，业界最普遍的做法，就是针对某一行业某个领域，依赖归纳法，搜集大量的专有词汇及语法，进行分类归纳后，储存在电脑中用来在以后辨识中应用。目前解决这些技术难题较成功的有美国Nuance公司，据称其语音辨识系统已达到了97％的效果，但中文的辨识能力有多高，目前还在评估之中。现在许多国际大厂商，如IBM、英特尔和西门子等都在这方面积极开拓，可以相信不久的将来，语音辨识系统的应用将会更加大众化，让人们的生活更加随“语”所欲。