首页>>厂商>>交换机/ACD系统平台厂商>>IBM>>语音产品ViaVoice

语音识别重在应用

2001/11/14

近两年CPU的发展很快,语音识别中的算法也日益精湛,两者有机地集成在一起后,应用的条件就日趋成熟了。

从语音识别技术的角度来看,目前有3个研究发展方向,即面向电脑、电话和手机的应用。电脑的语音录入应用是指电脑能够把人所说的话记录下来,解决文字输入的问题;电话的语音识别应用是借助通信平台,实现语音技术的更广泛应用;手机的语音识别应用是嵌入式的语音识别技术,实现手机、寻呼机在移动通信中的语音识别应用。据专业人士预测,5~10年以后,上述3个方向将会发生相互融合。

IBM公司在电脑的语音录入方面取得了重大的突破,Philips则在不断挑战手机的语音识别的难题。而言丰科技所研究的领域专注在电话的语音识别和语音合成技术上。言丰科技希望通过基于通信平台的语音识别,能够得到广泛的、有实际价值的商业应用。

从语音信号的采集方式来看,电脑录入对语音质量的要求比较严格,而电话采集的语音质量就比较宽容。电脑录入使用的是非自然语言,而电话是自然语言。要做好对电话语音的识别,就需要系统能够对男女老少,甚至是带有一些地方口音的各种语言进行识别。另外,基于通信平台的语音识别应用是有一定范围的,它所涉及的词汇量是可以控制的,这一点要比电脑语音录入容易实现。

在讨论了语音识别技术很多年之后,为什么这个话题在最近又大幅度升温了呢?言丰科技的梁康忠博士说:“技术发展到一定阶段时打破了应用的瓶颈,从而带来了应用的进步。语音识别是一项难度很大的技术,里面的算法非常复杂,对CPU的要求也非常高,过去应用的条件不具备。而近两年CPU的发展很快,语音识别中的算法也日益精湛,两者有机地集成在一起后,应用的条件就日趋成熟了。”

语音识别面临的问题

国外已经有了不少较大规模的语音识别IVR系统或者呼叫中心的应用,然而在国内,虽然有将语音识别和呼叫中心结合起来的趋势,但仍没有多少应用。这其中虽然有诸多影响因素,但重要的一点就是汉语语音识别技术还不够完善。那么,语音识别技术要进入大规模商用,还要跨越哪些障碍呢?

1.用户的独立性

所谓用户的独立性,就是指语音识别软件能够识别有不同嗓音和口音的用户,而无需通过训练软件来使其识别一个特殊用户的声音。目前的许多语音识别软件,是基于标准的发音来进行识别的; 而实际上,人们说话千差万别,发音也各不相同,特别对于有口音的语音来说,更是对语音识别软件提出了严峻的挑战。

2.自然语言的能力

有少数复杂的语音识别系统使用提示性对话,而这样的语音识别系统提示用户,是用一个单词或记号来回答。根据专门机构的调查,多数人更喜欢用约定俗成的自然语言,而不喜欢使用提示性对话。

3.处理插入的能力

插入的能力是指允许用户在系统提示时中断系统,但系统依然能知道用户的请求。  

这点对于实际的应用来说有相当重要的意义。因为人们在说话时,总是在不自觉地思考,经常会打断语言的连续性,而插入一些补充性的语言。这样的语言,在语法上来说经常是不正确的,常规的语音识别系统很难处理这些语音。

4.软件身份验证的能力

软件身份验证的能力是指根据用户的嗓音和语言特点来识别用户的能力。这在实际中是一个非常有价值的特点,如可用于人事管理中。

语音识别研究现状

1.语音识别获得应用

伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统e-talk。这是由言丰科技自主开发的、全球惟一拥有中英混合语言的识别系统,能听、能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。

2.语音合成信息服务被用户接受

语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需求、应用前景和经济效益都是十分有潜力的。

语音技术已逐渐在电信声讯信息服务领域的智能电话查询系统中展开应用,并迅速得到推广。目前电话高度普及,如果通过最便捷的电话方式就能查询到所需信息,无疑将给人们的日常生活带来极大方便。汉语语音合成技术应用到声讯服务领域内,将对现有的电话查询系统产生革命性的影响。

随着互联网的出现和推广,在技术上,语音与互联网已能够成功地结合。用户可以通过电话,方便地发送电子邮件和类似的留言信息,不仅具有传统的语音信箱功能,还可以将用户语音以IP的方式廉价地发送到全球任何一个电脑或电话终端上,大大降低了信息交流的成本。

3.面向对象的语音编码技术获得突破

长期以来,在通信网的发展中,提高信息传输效率是一个关键问题。目前已有两个途径可以解决这一问题:一是研究新的调制方法与技术,来提高信道传输信息的比特率,指标是每赫兹带宽所传送的比特数;二是压缩信源编码的比特率,例如标准PCM编码,对3.4kHz频带信号需用64Kbps编码比特率传送,而压缩这一比特率显然可以提高信道传送的话路数。实际上,压缩语音编码比特率与话音存储、语音识别及语音合成等技术都直接相关。

4.口语机器翻译受到重视

口语翻译的一个重要目的就是帮助聋哑人与正常人交流。首先,聋哑人要戴上一副特制的手套,计算机根据他打出的手语进行识别,然后,通过语音合成系统就可以把图像信息翻译成语言信息。同时,系统还能够完成将正常人的语言翻译成聋哑人的手语。将正常人说的话键入计算机,经程序分析处理之后,翻译成有表情、有动作的三维图像,就可最终达到聋哑人与正常人之间通过翻译机进行交流的目的。口语翻译的研究在其他很多方面都有重要价值,如用手势控制计算机,甚至用手势导航等。

语音识别技术进入商用

语音技术开辟了一个巨大的应用市场,目前的语音技术应用的程度如何呢?

1.技术成熟

在技术方面,英语的语音技术比汉语的语音技术的商用程度更广,实用程度更好。在汉语的语音技术方面,国内的语音合成技术比较成熟,已经达到了商用的标准; 在语音识别方面,已经有一些产品开始投入商用,如言丰科技的e-talk产品。

2.厂家众多

在语音识别方面,有国外的IBM、Philips、Nuance等公司;国内的有香港的InfoTalk、捷通等。在语音合成方面,能够提供产品的公司就十分多了,有的产品是用软件来实现,有的专门设计了硬件芯片。

3.促进网络的融合

语音技术的发展,带动了网络的融合过程。目前,世界上的两大通信网络是电信网和计算机网,电信网是以语音信号为处理对象,计算机网则是以数据信号为其处理内容。语音技术为两个网络的结合,奠定了技术基础。

4.语音接入通过PSTN

目前,人们进行信息交流的主要方式还是通过电话网。用户可以通过拨打一个电话号码,接入到信息访问中心。

语音技术商机无限

1.金融

采用了语音技术后,通过电话,不用人工的干预,就可以进行账户余额查询,完成账户间的转账等工作。不仅提高了工作的效率,也改善了服务商的形象。

2.证券

用户通过电话可以查询当前的股市情况,不用再按电话上的按键,而是直接说出自己关心的股票的名称,计算机就通过语音合成技术,将结果播报出来。

3.电信和寻呼

采用语音技术,在电信业务中将产生很多的应用。例如在“114”电话黄页中,目前还要有大量的人工服务; 而如果采用语音技术,就可以不用人工服务,让计算机自动接听用户的需要,然后回放查询的电话号码。寻呼目前还是通过寻呼小姐记下用户要寻呼的目标号码,然后将内容输入到寻呼系统进行发射; 采用语音技术后,可以让计算机自动地进行整个操作过程。

4.旅游

用户可以通过电话,自动查询那些感兴趣的景点的语音介绍材料,相当于请了一个电话导游。当出现问题时,也可以通过电话,进行各种求助。

5.娱乐

语音技术在娱乐方面,也可以激发出许多的新应用。例如,在通过电话进行电视MTV点播时,可以避免重复地按电话上的按键,而是直接说出是哪个歌手的哪首歌,电视台就通过接收语音输入,播放相应的曲目。

技术为本,应用为先。言丰科技在研发语音识别技术产品时,就希望能够通过自然的语言交流,实现人机交互式的对话形式,使电脑能理解我们的语言,并按照我们的指示去工作。因为这一目标的实现将会给人类的工作和生活带来质的变化,同时将产生巨大的商业价值。因此,目前基于通信平台的语音识别技术的商业应用已被众多的企业所关注。有专家预测,随着技术的快速发展,再过10~20年的时间,我们将可以做到非常自然的人机交互式对话。

IBM供稿 CTI论坛编辑



相关链接:
ViaVoice语音上网新概念 2001-11-14
IBM ViaVoice更方便更健康 2001-11-14
IBM ViaVoice Telephony——完善的中文电话语音技术 2001-11-14
CRM中的IBM语音技术 2001-10-10
IBM Viavoice:挂在嘴边的输入法 2001-10-10