语音技术成为主流_语音合成_语音识别

语音技术成为主流技术

　　随着激动人心的新应用例如语音门户(voice portal)和网上消息(web messaging)以及改进的算法使语音技术逐渐成为一项被大众接受和使用的技术。语音门户提供使用自然语言命令访问Internet信息的方式，网上消息是新的一种统一消息应用，它把网站访问和传统语音信箱，电子邮件和传真等技术集成在一起。总之，语音技术很有潜力成为下一个个人电脑，电话和其它电子设备的下一个关键的访问接口。

■ 机会在哪里？

　　语音门户应用给具有语音技术的开发商提供了很大的机会。根据Frost & Sullivan*公司预测，未来六年这一市场段会有54％的增长**。公用网络提供商，本地交换提供商(LEC)和Internet服务提供商(ISP)等都在寻找提供不同于别人的服务，他们都很有可能进入这一领域来提供利润丰厚的增值服务。

　　同一消息应用应运而生是由于企业认识到跨平台消息系统（语音，电子邮件和传真）应用的优点。网上消息则代表了一个很自然的功能上上的增强。Dot-com公司利用语音技术提供了访问他们网站服务器和分布式数据库的另外一种方法。这一演变将语音技术带入到公众中去，这方面的需求也在不断的增长。移动电话的用户一定很欢迎使用自然语音识别输入而不是按键的输入。尤其是当现在移动电话尺寸越来越小，语音输入的优势也更加明显。

■ 连续语音处理技术

　　创建增强的语音技术的平台的技术称作连续语音处理, 简称CSP(Continuous Speech Processing ). 利用CSP和Dialogic? Dialogic?板卡结合在一起的新技术，可以开发出提供最高准确度和最好性能语音识别电话应用。

　　利用CSP开发有以下5个主要的优点：

节省开支 - 整个系统是低成本的平台
性能 - 减少系统延迟时间，改进反应速度
准确度 - 更高的识别准确度
可扩展性 - 系统可由小到大扩展
密度 - 每个板卡经济的端口密度

　　在后面我们会继续讨论CSP技术的优点。首先让我们来看一下是CSP是利用哪些技术来实现的。

■ 底层技术实现

　　CSP是在现有语音技术上增加了新的算法来实现的。一个主要的功能模块就是语音打断(barge-in)，它使一个用户可以通过说话来打断语音提示。一个语音识别引擎可以识别出用户打断所说的话是什么。许多电话环境里，进入系统的信号是多个信号的混合包括用户的说话，语音提示的回声和线路的噪音。考虑到这么多种变数，例如电话线的类型和质量还有说话人的的不同语言，开发语音打断功能面对非常大的技术挑战。首先，系统根据电话环境建立回声特性的模型，然后把对向外播放语音提示的回声进入信号中的消除掉。使用CSP，过去需要大量CPU处理资源的工作就大大减轻而把这部分工作被放在板卡上一个DSP来进行处理，这样可以高效的管理语音检测。CSP被设计用来优化基于主机的(host-based)语音识别资源例如运行在主机上拥有很大词汇库的语音识别引擎(ASR)。 CSP使从语音板卡(analog, T-1/E-1,etc.)到主机处理器传送)经过预处理的语音数据流成为可能。

　　CSP功能里面有几个关键的功能，它们对我们讨论过的应用和市场段里起到关键的作用：

回声消除(Echo Cancellation,简称EC) - 用于语音识别，IP电话，DTMF和音频检测技术。主要用来把外发的信号的回声从进入信号里面清除。
全双工操作 - 应用程序可以在同一个通道上同时接受和发送语音数据。
语音活动检测(Voice Activity Detector，简称VAD) -检测线路上是否有语音能量
语音打断(Barge-In) - 当在某一个通道上检测到语音能量，CSP可以被设置为自动停止在那个通道上播放的提升语音。这可以很快的中止提示音，接收用户的输入，从而提高识别的准确度。如果不很快地中止提示语音，用户很可能口吃或者说话不清晰，那也会影响识别的性能。
语音事件通知 - 当检测到线路上语音能量，CSP可以在不停止当前语音提示播放的时候给主机的处理器发出一个消息，语音识别的引擎可以做进一步判断以后停止提示音的播放。
预缓冲（Pre-Speech Buffer） - 进入的语音数据被存在一个250毫秒的缓冲区里。当检测到语音能量，这一部分储存在缓冲区里的语音就会被转发到语音识别资源来被处理。这种预缓冲的里包含的关键信息在高识别准确率要求的时候是十分关键的。
统一的编程接口 (API) - 为了保证系统的可扩展性，不同密度的底层硬件之上，应用程序的编程接口必须要一样。

■ CSP优点

　　如果我们在有CSP和没有的两种情况下对呼叫流程进行一下比较，可以看到CSP的优势是很明显的。在没有CSP的系统里，主机不断的针对所有激活状态的通道，从DSP取数据。这就消耗主机CPU很多资源，进而影响系统性能。当DSP不断把语音包送到CPU，这种工作很可能占据90％到100％的CPU处理能力。而且，DSP还没有办法过滤掉无用的数据（例如没有说话的时间），这进一步使系统性能下降。因此必须要安装高性能处理平台来弥补CPU的工作量。

　　当一个主叫方和一个有CSP的语音平台进行交互时，整个过程中都是在播放提示语音。主叫方可以在提示音播放过程中任何时刻说话，插入语音命令。这加快了语音菜单导航。后台处理系统同样高效。系统平台只需要在有语音输入的时候才交给主机进行语音处理，这通常只占应用程序10％到15％的处理时间。CSP利用DSP的VAD功能只把有语音的部分数据交给主机来处理，节省了主机处理的资源。上面功能是利用板卡上DSP的检测模块来完成的。

　　预处理缓冲区的说明

　　语音打断功能是由板卡上的预处理缓冲区和语音能量检测两个模块来实现的，把主机的CPU从连续数据处理的负担中解脱出来。主机只有当板卡产生一个事件例如检测到语音以后才需要开始工作。还有其它的好处。使主机CPU不再处理无用的数据可以减少系统负荷，这也是系统可以扩大到几百个端口。还有，预处理缓冲区为应用程序开发者提供了更高的可靠性和准确度。

　　拥有语音打断的语音系统会把去除回声后的数据打成很小的包（小于100毫秒）从语音板卡发到主机上的语音识别引擎。这样做可以使主叫方语音的检测和确认花更少的时间，达到更高识别的准确度。客户也会感觉系统很友好，因为他们一说话系统就停止播放提示语音了。

　　选择很明确：在板卡上做预处理缓冲区而不是把所有语音检测都放到主机上，在今天要求可扩展性和高密度的系统中是必需的。

■ Recognizing the Benefits

　　Internet的成功和电子商务的增长为语音技术创建了新的机会，也提出了新的需求，这些新的需求只能用类似CSP这样的语音处理结构来实现。除了结构，CSP也提供了关键的优点，应用程序开发商可以开发新的功能投入市场。

　　准确度

　　CSP提供很多功能类似语音打断，预处理缓冲区，回声消除增加了客户的满意度，他们不会有过去的体验过的关于语音技术的不好的感受。背景音，静电和不好的线路质量利用环境噪音阀值被减轻或者消除了。这究使这个平台可以被应用到任何电话环境，给开发者提供进入不同市场的坚实的基础。

　　密度／可扩展性

　　CSP提供4到120路不同的密度。因为很多语音识别需要的关键模块在板上被支持了，减少主机CPU处理连续语音数据的负荷。当在一台机箱里面插多块高密度板卡，这个系统可以轻松扩展到几百线。

　　节　约

　　CSP节省了实施费用和运营费用。因为语音门户和网上消息应用都是在共享的主机上，空间的考虑是很重要的。高密度的系统可以运行在一台机箱里就可以减少系统所需的空间。

　　而且，板卡级模块使昂贵的主机平台不是必须。使用比较便宜的处理器就可以达到可接受的性能。从运营费用来考虑，使用了类似语音打断，回声消除和预处理缓冲区，减少了呼叫的时间，单位时间内能接入的电话就增加了。

　　应用提供商也需要考虑到节约。访问带有语音功能的应用大多是免费电话。如果每个呼叫的时间可以缩短，电话费也会相应减少。

　　最重要的优点就是改进了客户的服务。获得新客户是昂贵的。利用CSP提供能轻松导航和高准确度，你可以更好的留住你现有的客户，同时把你的时间和精力放在寻找新的有利润的服务上来吸引新的客户。

　　性能提高

　　CSP提供了别的电话平台没有的高性能。语音打断是任何一个语音导航系统中的关键成分。让用户可以有一个与计算机的对话是用户有更舒适的体验。如果没有语音打断，用户会觉得他们被系统所控制而感觉不舒服。语音打断的准确度也是很关键的。一些系统会被背景噪音或者其它非语音时间所打断。使用者就会继续等待系统的提示选项尽管这时候系统已经被不真实的语音所打断。高级的系统都会使用负载的语音检测模块避免不小心的输入打断语音提示。如果这种高级的系统没有硬件的帮忙，大量的主机处理能力都这些前端处理所耗费了，最终将影响到系统的密度和性能。

　　CSP使使用者感觉更好。板卡上的语音检测模块和预处理缓冲区使板卡级的模块可以过滤提交给主机CPU的数据流。只有语音说话被检测和获得。因此，CPU的负荷很小，语音事件更加准确发给识别软件。最终的结果就是更高的识别率和满意的客户。

■ Will Your Voice Be Heard?

　　如果你希望提供先进的语音处理应用，你应该使用连续语音处理平台。CSP提供业界对下一代语音应用如语音门户和网上消息提供了最好的支持。

**Frost and Sullivan, "Speech Recognition," April, 2000, p. 31.
00-6556-002
02-23-01

融合通信专栏>>技术开发>>