Aculab的ASR (自动语音识别 ) 技术_语音板卡_语音识别

Aculab的ASR (自动语音识别 ) 技术

2004/05/08

　　对于那些需要把语音识别(ASR)技术引入交互式应答应用领域的开发商而言，Aculab的基于音素的语音识别引擎是理想的选择。该引擎能把说出的词或短语与语法规则匹配，确定识别结果。Aculab的基于主机的语音识别引擎性能卓越，而且是免费使用的。

　　由于采用的是音素模型，所以用户能方便地通过增加发音字典的条目，来定义和扩展识别词汇表。

　　采用该识别引擎的系统结构是完全可伸缩的：一个或多个ASR服务器可以接收并处理来自一个或多个客户机的话音输入，而且只有客户机系统需要使用Prosody媒体处理资源卡。此外，ASR可以和Prosody板卡上的其他语音算法混合使用，来提供更多的选择和灵活性。所有这一切，证明了Aculab对电话语音市场的一贯承诺:通过不断地为Prosody板卡提供新功能特性，保证其无与伦比的价值。此外，这些功能都是通过Aculab的统一API实现的，配合全球范围内的电信协议支持和认证，可以有效地加快应用系统进入市场的速度。

增强的语音识别
　　Aculab的ASR识别速度快，准确度高，在识别过程中能无缝地与混合的整字/单音素/多因素模型集成。据此，一句言辞的不同部分可以通过不同的方法得到处理，从而得到识别结果。对于连续字识别，准确率高达97%。此外，为了处理易于混淆的被识别对象，系统还能给出带有可信度数值的其他候选识别结果。

独立于说话人
　　为了适应由于性别、年龄和口音等因素产生的声音变异，在所有支持的语言里，Aculab都进行了广泛的语料分析。专用的语音信号分析算法确保了识别引擎的韧性，不受话机和电话线路质量的影响。

自然地讲话
　　不常用的方言使得某些特定字词的发音与规范不同。在此情况下，开发商可以通过编辑和添加发音字典的条目，来扩展识别词汇表。Aculab提供了方便易用的、基于Windows的词典管理工具－ASRLexMan。一个特定的词可以有多个不同的发音，来解决方言问题，提高识别的准确率。

运行时语法处理
　　语法定义了被识别词汇的范围和在句子里可能出现的前后次序。该识别引擎采用的是Aculab语音语法格式(ASGF)，ASGF是Java语音语法格式（JSGF）的一个子集。Aculab ASR中语法可以预先设定，也可以在运行过程中根据用户和应用系统交互的需要或为适应外部因素而随时动态定义。语法可以用基于Windows操作系统的管理工具ASRNetMan来编辑生成。

可扩展的结构
　　由于高密度的Prosody板卡上的一个DSP可以支持多达64个通道被识别语音的馈入处理，所以通道容量指标主要取决于ASR主机服务器的处理能力。使用额外的主机可以增加通道容量。ASR结构的内在灵活性，支持一个或多个识别服务器配置，所以能充分利用Prosody资源卡的强大处理能力。

支持的语言
　　同一个语音识别软件包，能同时处理多种语言，包括：英国英语、美国英语、法语、德语、意大利语、北美西班牙语、巴西葡萄牙语、和拉丁美洲西班牙语等。应用中每次可以根据需要配置成不同语言的识别。

主机操作系统支持：Windows XP/2000，Linux和Sun SPARC Solaris。

可选的硬件
　　基于主机的ASR应用可以通过Aculab的PCI或cPCI格式的Prosody板卡的任意语音处理固件获得输入的话音信号，所以允许ASR和其他基于DSP的语音处理算法并行使用，包括录音/放音、回波抵消和DTMF检测。这样，在同一个硬件平台上能支持多种语音处理技术。

　　回波抵消功能是由Prosody固件提供的，它对实现人机自然交互非常重要。具体体现是支持"barge-in"功能，使得有经验的呼叫用户无需听完完整的系统提示音，就可做出响应。

同时支持文语转换和说话人证实
　　如果ASR和文语转换(TTS)以及说话人证实和鉴别(SVI技术)一起使用，开发商可以进一步提高IVR和呼叫中心系统的性能。TTS和SVI都用Prosody板卡来提供话音回放的通道，而且是可以免费获得的。

通道容量
　　典型地，采用单1.9GHz CPU的主机来担当客户机、服务器以及控制器，可以同时支持120个并发的语音识别通道。

性能指标和优势
·高识别准确率
　　是通过混合采用整字/单音素/多因素模型获得的。
·可伸缩的系统结构
　　采用分布式服务器结构，方便系统功能或容量的扩展。
·大通道容量
　　能提升平均每通道资源处理的价值，有效减少硬件开销。
·Aculab统一API
　　易于系统集成，加快应用程序进入市场的速度。
·免费的使用许可证
　　意味着无需付费，就可以随时随地从Aculab的网站下载此软件。
·用户可定义的词典
　　ASRLexMan为开发商和系统集成商带来使用过程中的灵活性。
·按字母拼读规则
　　当一个词在词典里不存在时，用作备选处理规则。
·标准的语法定义格式
　　方便语法标记和生成。
·运行时语法处理
　　支持灵活的人机对话流程设计和实现。
·脱机语法编辑
　　ASRNetMan方便开发商和系统集成商创建灵活的应用。
·与说话人无关
　　意味着呼叫用户使用应用系统前，无需进行训练。
·可能的选择
　　支持交互式系统设计的智能实现。
·识别结果的可信度
　　每次识别完成之后都会返回该参数。此结果对出错情况下的处理有帮助。
·静音检测
　　用来确认一句言辞的起始端点，最大限度减轻系统处理负荷。静音检测的相关参数可以通过API调整。
·回波抵消
　　在Prosody板卡上实现，来支持"barge-in"功能。

　　预知更多信息，请联系Aculab的销售代表或访问我们的网站：http://www.aculab.com

Aculab公司供稿 CTI论坛编辑