语音技术成为主流
 

 您的公司需要语音技术吗?

  算法的改进和新应用的出现(例如语音门户和Web 消息等),使得语音技术成为市场主流。语音门户可以使得用户通过电话线使用语音命令访问基于Internet的信息,而Web 消息是统一消息新孕育出的业务,可以使用传统的电话技术接入网络,像语音mail,email和传真等等。加上新出现的自动语音应答为企业提供整合了WEB的接口,您会发现所有的相关技术和市场都在快速增长。简而言之,语音技术的巨大潜力已经使其成为个人电脑、电话以及其他电子设备的下一个关键的接口。

 发展的机遇在哪里?

  语音门户对使用语音技术的应用开发商而言是巨大的发展机遇。Frost & Sullivan*预计在以后的6年里,语音门户的市场将会保持 54%增长率**,公共网络提供商、本地交换运营商(LECs) 、竞争性的本地交换运营商(CLECs)、Internet 服务提供商(ISPs)都正在寻找该领域的闪光点,期望从中能找出能够带来丰厚回报的增值服务。

  企业级的统一消息应用可以利用包括语音,email和传真消息等交互消息平台获取利润, Web消息在功能上是其自然的发展,。网络公司则可引入语音技术来访问它的Web服务器和分布式数据库,以得到更高程度上的业务集成。这种向语音技术的发展将会有更大的市场需求,移动电话用户会更喜欢语音拨号取代手动拨号,蜂窝电话尺寸的减少使得这种语音技术的优越性将会更加明显。

 持续语音处理- 使得消息更加宏亮和清晰

  增强语音技术平台的结果是持续语音处理(CSP),Dialogic? Dialogic?板卡和CSP技术将会开发基于语音的应用,这种应用通过整合新技术和提供高质量的语音命令的传输,达到最好的精确度和最好的性能。
CSP 给开发商带来5个方面的好处:

  • 节省成本 - 系统平台的成本更低
  • 性能好 - 减少系统延迟提高响应时间
  • 准确性高 - 更高的识别准确度
  • 适用范围广 - 适用从小型到大型的的各种系统
  • 密度高 - 每一个板卡上具有经济合算的端口密度


  我们将在后面谈及这些好处,下面分析一下CSP的关键支撑技术

 解开神秘的面纱

  CSP构建在辅助有新算法的增强型语音技术之上,它的一个关键组件是话音插入(barge-in),即允许用户说话来打断提示语,同时中断期间语音识别器依然可以识别话音。在大多数电话的应用环境中,到达的信号是用户话音、从提示语过来的回声和线路噪声的混合体。考虑到包括各种类型和质量的线路的变化,同时考虑到说话者的声音,开发出话音插入技术意味着将面临艰巨的技术挑战。为了能使其工作,系统必须为真实电话环境的回声特征建模,并从接收信号中减去提示语回声。利用CSP技术,这种极其消耗CPU资源的功能将不再使用系统主机的CPU,而转向使用语音板卡上的DSP来进行高效地语音检测。针对基于主机的语音资源处理,CSP技术可优化其性能,例如驻留在主机上的大词汇量的自动语音识别(ASR)引擎 。CSP可以实现语音数据在电话板卡和主机处理器之间的流式预处理。

  CSP功能具有几个关键特征,这些关键特征对于应用和扩大市场份额至关重要。

  • 回声消除 (EC) - 在语音识别、Internet电话、DTMF/音频检测技术中使用,用来在到达信号中消除提示语的影响。
  • 全双工操作 - 该应用使每个电话端口都能够同时发送和接收话音数据
  • 语音激活检测器 (VAD) - 检测线路上是否有语音能量信号
  • 话音插入 - 在给定话路上进行语音检测时,CSP可以通过编程自动中止话路上的提示语,通过快速中止提示语和识别呼叫者的输入,可以改善识别精度。没有提示语的快速停止,呼叫者的说话可能会断断续续或者不清晰,降低识别性能。
  • 语音驱动信令 - 当检测到语音信号时,不需要停止提示语播放,CSP通过编程发送信号给处理器,允许ASR引擎中止提示语已达到更好的质量。
  • 预话音缓冲器- 到达的话音数据存储在一个250ms的缓冲器中,当检测到语音信号时,缓冲器中的话音会被转发给ASR资源进行处理,这种预语音包含高精度识别所需的关键信息。
  • 统一的应用编程接口 (API) - 为保留系统的灵活性,应用编程接口必须一致,而且与底层的硬件无关

 CSP 优点

  如果我们对具有CSP的系统和没有CSP的系统的呼叫流程做一个比较,CSP的优点就会很清楚。没有CSP的系统,主机不断地从DSP接收数据,包括所有的端口,这对CPU和主机的压力很大,会降低系统性能。当DSP不断地将语音包发给CPU时,这些输入数据将占用CPU的90-100%的处理能力。而且,DSP没有对无用的数据(例如:非语音信息)进行过滤,而直接送给CPU进行处理,这将进一步降低系统性能。结果,必须安装高性能的平台以补偿对CPU和主机负荷的增加。

  当呼叫者在基于CSP的语音平台上交互操作时,将会有提示语播放,呼叫者可以在提示语播放期间随时说话来发出命令。这种方式通过使用语音菜单来加速引导过程,使用户功能轻而易举的找到目标。同样系统可以高效地进行后台处理,平台只在语音输入时才要求主机系统进行处理,通常只需要其它应用程序的10-15%的处理时间。通过使用DSP上的VAD,只有当由语音输入时才提交流数据,CSP可以大大节省CPU的处理时间。使用CSP时,板上DSP的语音检测模块就可以完成这种工作。

  ◎ 预话音缓冲器的解释

  使用预语音缓冲器和VAD的话音插入组件后,可以将主机从繁重的持续语音处理的任务中释放出来,并减少系统的复杂度。只有当有事件发生时系统才会工作,例如语音检测。这样做有很多好处,负载减轻后可以将系统扩展到上百个端口,因为主机CPU不再需要处理一些无用的数据。此外,预语音缓冲器使应用开发商可以提高系统的可靠性和准确性。

  使用话音插入组件的语音系统将经过回声消除处理的数据装在很小的数据包中(小于100 MS),从语音卡传送到主机的ASR引擎。这样意味着检测和识别呼叫者的话音数据将会花费很少的时间,进而转换为更高的精度。呼叫者会发现系统更友好,因为只要一说话,提示语就会停止。

  选择已经十分清楚了,具有预语音缓冲器的语音检测系统装配在板卡上,而不是主机上,这是建立一个可扩展的和高密度的现代系统的所不可缺少的。



 利润再现

  Internet的成功和电子商务的持续发展为语音技术提供了巨大的商机,同样也会刺激像CSP这样的语音平台的需求。除了构架的概念以外,应用开发商可以使用CSP的关键优点开发出新功能并投放市场。

  ◎ 准确性

  利用话音插入组件、预语音缓冲器和回声消除技术,能够提高CSP的准确性, 可以满足用户的需要,特别是对那些由于使用了语音技术而遭受挫折的用户。背景噪声、静电噪声、线路质量差等影响可以通过配置噪声门限得以减小或者消除,假如开发商打算介入各种市场应用,那么这种平台可以应用在各种电话环境中。

  ◎ 密度/可扩展性

  CSP 每个卡可以提供4-120个话路的端口密度,因为语音识别的关键组件可以由板上的功能完成,将主CPU从连续的流数据中解放出来。如果在在一个机箱中安装多个高密度板卡组件,语音平台可以很容易地扩展到每系统上百个端口。

  ◎ 节约成本

  通过在实施和运行维护方面降低成本,CSP可以节省开支。因为语音门户和Web消息常常是布署在一个共享的主机站点,空间方面的考虑是十分重要的。高密度的系统可以将系统配置在一个紧凑的计算机机箱中,使得系统占用的空间最小。
此外,板卡级的组件减少了对高成本平台的需求,只需使用较低价位的处理器就可以得到相当好的性能。像运行成本,话音插入组件,预语音缓冲器和回声消除之类的高级特征有助于减少呼叫持续时间,从而增加处理呼叫的数量。

  应用提供商也可以节省开支,通常通过一个免费号码就能访问语音应用,如果呼叫持续的时间变短,电话的费用也会相应减少。

  最主要的好处是能够提高的服务质量,获得一个新客户是很非常昂贵的。使用CSP提高精确度和简化引导方式,您就能留住这个老顾客,从而可以集中精力和时间去发掘更赚钱的服务,并招揽更多新的顾客。

  ◎ 增强的性能

  CSP 提供的高性能是其他平台所不能提供的。话音插入组件对于一个话音驱动的系统是至关重要的一个因素。让用户和计算机进行步调一致的对话,用户将得到很好的体验。没有话音插入组件,呼叫者就会变得不耐烦或者感觉被计算机控制。话音插入组件的准确度也很重要,性能低下的系统往往将插入的话音视为背景噪声或者其他的非语音事件。如果话音插入组件不准确,呼叫者往往会等待已经被错误的语音事件所中断的提示音或选择。高级的系统在终止提示语之前会使用精密的话音检测器,以避免提示语不被无意识的输入打断。在没有硬件辅助的系统中,要完成这种高级的处理,大量的主机处理资源将被消耗,这样将限制系统的规模和性能。

  CSP将使得呼叫者感到轻松。板卡上语音检测器和预语音缓冲器的结合,允许板卡级的语音处理组件挡住本应流向主机CPU的数据流,只有语音才能够被检测和捕获,结果是CPU的负荷大大减轻,语音事件的捕获更为精确并能够直接送到识别器进行处理。最终得到的是更准确的识别和客户的满意。

 您希望全世界都听到您的声音吗?

  
  如果您的业务是提供这种前沿的语音处理应用,你应当关注持续语音处理(CSP)平台。CSP在这个产业中可以提供最好的语音应用的支持,像语音门户和Web消息。现在就来利用这种激动人心和前景诱人的创新技术吧!


*所有文中提到的名字和产品和业务均是注册商标



 

  [ 本文英文版 ]

 

 

融合通信专栏>>市场热点>>