浅谈ASR和TTS技术在CTI中的应用
2004/01/02
什么是ASR、TTS?ASR,英文的全称是Automated Speech Recognition,即自动语音识别技术,它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:1. 识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。
TTS,英文全称是TextToSpeech,即文语转换,又称为计算机语音合成,它的过程和ASR刚好相反,是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为,语音合成系统包括三个主要的组成部分:文本分析模块、韵律生成模块和声学模块。目前,TTS的技术已经可以达到商业化的地步。
微软的SAPI是作为Windows的一部分,已经被被集成在Windows里面。相对于其他引擎,他的识别率也比较高,如果做过适应性调整,识别率可以达到90%以上,而且他的开发包是还可以免费获取的,各种文档资源也很齐全,很方便做二次开发。由于SAPI是作为Windows的一个独立组件在发展,版本更新也比较快。
最新的SAPI 3.1提供了基于COM的高级编程接口,应用程序通过这些接口与语音引擎打交道。SAPI将ASR和TTS功能集成在同一个语音引擎中,TTS可以将文本和文件合成为语音,ASR则是将人的声音信号转换为可读的文本或文件。
下面,我们针对两种不同当前情况,站在业务开发商的角度,看如何将ASR和TTS功能附加到我们的应用中去。
带语音接口的PBX这里还是以MPS2000系统为例,MPS2000是一套面向下一代网络的、集成了多种业务能力的交换平台。它具有很强的接入和组网能力,支持V5.2、SS7、ISDN PRI等信令,以及面向IP的H.323、SIP、MeGaCo等媒体控制协议。同时,它的业务资源也非常丰富,有IVR、会议、会议抑制、DTMF、ASR、TTS等资源,能面向各种不同的应用。
在MPS2000系统中,ASR被抽象为一种简单的可替代DTMF进行语音拨号的资源,用户提起电话,可以不用按键,直接呼叫某人或者说出电话号码,就可以呼出。TTS则被抽象为一种文本放音的资源,你可以摒弃以往的放音模式(通过路由文件播放),而直接把你想说的文本向用户放出来
下图显示了MPS2000中ASR和TTS的应用层次关系:
杭州迈可行公司供稿 CTI论坛编辑
下一代网络(NGN)的核心组件:软交换技术 2009-08-18 |
专业通信调度系统服务中石化华东成品油管网工程 2009-05-19 |
迈可行建设江西省政府应急指挥系统 2009-04-21 |
迈可行通信建立新的合作伙伴管理体系 2009-03-17 |
迈可行承建中石油呼和浩特炼油厂混合调度系统 2009-03-06 |