首页>>厂商>>语音板卡开发商>>杭州三汇

IBM ViaVoice Telephony技术

语音识别技术一直是计算机领域研究的重点。IBM ViaVoice Telephony技术是IBM公司的中文ViaVoice语音识别技术在电话通信领域中的延伸和发展,它提供了一个开放式的语音识别引擎和一系列应用工具,使得语音识别功能可以被方便快速地集成到电话系统中。

具体说来,普通话ViaVoice Telephony技术的特点包括:
1、与说话人无关,任何人都可以使用;
2、高识别率,内部的语音识别引擎是使用真实的电话信道语音数据训练得到的,在正常的电话信道(包括普通电话和手机)的噪音下具有很高的识别率;
3、无限词汇量,由于语音识别内核是比音节还要小的单元,所以对于开发人员定义的任何词表,它都可以很好地辨识;
4、连续发音,使用者不需要在词汇间有任何停顿,可以同系统连续交谈;
5、多语种支持,除了支持中文普通话和粤语之外,系统同时支持美国英语、英国英语、法语和德语;
6、多候选集的输出,可以输出不同候选结果的相似度得分;
7、支持声学加词,说话人只需输入语音信号即可完成加词;
8、支持动态加词,系统在运行状态下也可以动态地扩大可识别的词汇集;
9、支持语音合成,高自然度、高清晰度、高可懂度的文语转换系统是普通话ViaVoice Telephony技术的重要构件;
10、信道自适应,系统可以自动适应不同信噪比的电话信道;
11、与硬件无关的标准C/C++接口,可让系统方便地挂接语音识别和语音合成引擎;12、自然语言理解模块,提供更加人性化的人机对话接口;
13、出色的可伸缩性,提供从小型办公室到企业级电话语音系统解决方案,并提供全自动的动态负载平衡。

此外,IBM中国研究中心在IBM美国Watson研究中心的支持下,已经在语音识别的电话应用领域积累了多年的经验和技术。该项技术提供的语音识别引擎和语音合成引擎可以客户机/服务器的方式同IVR(Interactive Voice Responding)系统对话,共同组成一个先进的和智能化的分布式电话语音系统,支持单机和多机模式。

同时,IBM ViaVoice电话语音内核和工具库还为开发人员提供了开发电话语音识别应用程序的工具。其中,前者为应用程序提供了运行平台;后者则为开发和测试应用程序提供了一套实用程序。该工具库对Tcl/Tk脚本语言进行了扩展,简化了应用程序的开发和定制过程,并提供了与硬件无关的语音识别和语音合成引擎的C/C++接口,使得开发人员可以开发面向对象的解决方案。工具库中还包括了两个示例程序,可以帮助用户理解如何将语音识别集成到电话语音应用程序中。另外,软件中还附带了几个实用程序,来协助开发人员开发、测试和管理电话语音识别应用程序。

普通话ViaVoice Telephony技术具有广泛的应用前景,任何VRU(Voice Responding Unit)应用都可以同语音识别功能相结合,提供人性化的交互界面。不久前,我们杭州三汇数字信息技术有限公司和IBM公司就关于ViaVoice Telephony的应用签订了合作协议,从而使得我公司成为率先应用这一新技术的国内语音卡生产商及ISV。在与ViaVoice Telephony技术结合之后,我公司开发生产的语音卡可以彻底解决以前按键无法解决的地名、人名、股票名称等汉字词语输入问题,且具备高识别率、无限词汇量、连续发音、与说话人无关等特点。

目前,我公司已成功地完成了股票语音查询系统、机器人接线员、铁路自动票务中心、民航语音呼叫中心、邮政184自动查询系统等项目。其中,江苏省谏壁电厂经过严格测试,已决定使用机器人总机接线员,任何人都可以通过有线或无线电话用自然语言直接叫机器人接线员接通某人的手机、办公室或家庭电话。

相信,随着ViaVoice Telephony技术在通信、金融、旅游以及医疗等领域的进一步推广和应用,人们的生活必将更加多姿多彩。