首页>>>技术>>>语音应用>>>语音识别(ASR)  语音识别产品

 

语音技术:走出实验室的革命

蔡虹 2001/06/21

  最近在清华大学计算机系智能技术与系统国家重点实验室里,记者参观了一项名为“Talking Head”的技术展示。与近期十分热闹的“虚拟主持人”电脑合成的形象不同,这里屏幕上显示的是一张真实的人脸,能清晰地朗读出任选的一段中文或者中、英文夹杂的文字,她的嘴唇及整个面部随着发音的不同而变化。实验室的陶建华博士跟记者开玩笑说:“把你的照片拿来,20分钟我就能让它开口说话。”苛刻地说“说话的人脸”仍显得有些可怕。陶博士解释说数据分析的量很大,现在还未做到眼睛以上部分的缘故,所以“说话时”整张脸的活动还不太自然。

  如果有了十分自然的“Talking Head”,人们将会拥有许多个性化的TTS(语音合成技术)应用。例如可以在用在E-mail里,用自己的形象和声音“口述”邮件内容;母亲可以利用它给独自留在家中的小孩讲故事。国外某机构甚至宣布了“复活梦露”的疯狂计划,宣称梦露可以在重新活跃在银幕上,她甚至可以主演新的剧本,与观众谈论现在的时事。   种种美好的、有趣的、大胆的、革命性的应用得益于语音技术的发展。语音是核心技术,与其他任何技术的交叉组合,就会产生活力。优美而复杂的汉语因处理的困难屡次受到“是否阻碍了信息化进程”的质疑,如今在语音技术方面也慢慢地跟上来了。

  应用突围

  语音技术可分为语音识别和语音合成两大类。语音识别涉及的问题更复杂一些,例如方言、应用中语音通过电话(特别是无线方式)传递时的失真等等。就汉语来说TTS技术更成熟,若把机器的发音分为能听懂——清晰——有表现力三个阶段的话,目前只能说“接近比较自然”,能播新闻,但也许不能讲故事。技术已经到了可以走上应用的阶段,各种产品早就迫不及待地冒出了头。

  有关通信的应用是市场比较需要、产品也相对丰富的方面。在“移动梦网”建设中,炎黄新星公司与清华大学合作提供的IP—IVR与TTS语音网关产品已在5月安装到了杭州和广州的中国移动统一信息平台上。用户将可以用手机、固定电话播打或接收电子消息,并可以利用IP网关技术,进行IP语音消息、IP传真在公网与专网上的数据传送。电子词典以及图书发行方面的应用也很广泛。

  由新华书店等投资的新华世纪软件公司新推出了以汉语普通话为标准发音的朗读软件—“新华音霸KingVoice1.0”,在电脑朗读的同时能显示具有口型变化的Talking Head。2000年掌上电脑“开口说话”的话题炒得很热,捷通公司开发出WinCE环境下的语音阅读软件。这些用的都是清华大学的核心技术。

  同为863计划基地的中科大讯飞公司在“国家863计划十五周年成就展”上展出了新颖有趣的“虚拟主持人”、“机器人足球赛虚拟评论员”,引得观众驻足围观。讯飞推出了一系列的“EVoice有声电子邮件系统”、“电话语音金融雷达系统”等解决方案,以及针对教育领域的“老师家长一线通”和“网络信息净化器”等软件产品。由其承建的我国首家应用语音技术的数字化图书馆在安徽通过了验收,突破了传统数字图书馆只能通过计算机网络查询的限制,读者通过电话就可以获取图书馆的大量信息。

  企业需要一般公务及商业方面的应用,例如“统一消息处理系统”。只要一台计算机或电话,员工无论在家中、在路上,还是在办公室或旅馆,都可以随时随地处理个人语音信息、传真和电子邮件,十分方便。例如员工通过电话登录,系统可以用“口述”的方式让员工了解邮件的内容。 TTS应用已经开始渗透到大众身边。打开个人电脑,号称“无话不说的超厚词典”—金山词霸.net 2001,就能够对任意单词、语句,甚至可以流利的带语气的朗读出用户指定的任何一段英文。

  与国内各大科研院所不同,IBM、Intel等跨国公司花了更多力气在语音识别技术方面。IBM早在1997年就推出了中文的“听写机”。其“ViaVoice”软件已经不仅用于电脑,还应用于电视和便携式信息终端等,如智能电话转接系统、Web网站上的应用、在Word2000文档模板中可以直接通过语音输入文件等。Intel公司自己就采用了语音识别自动转接系统,拨通其总机后,说出拨叫方的姓名,经确认后就可自动转接过去,而无需按键。

  市场升温

  一个方便的系统肯定需要语音识别与语音合成两种技术的配合,例如系统通过语音识别来确定身份、了解要求,然后通过语音合成使移动的用户通过手机、PDA等便携的终端“听”到消息。 技术最近看来不会有飞跃性的突破。各公司的技术基础基本相同,倒是在系统的集成和市场的推广上分出了高低。

  市场需求十分高涨。韩国的智能家电系列、美国的能提醒人们按时服药的药瓶、德国的会说话的全自动洗衣机、英国的能说四国语言的新颖吸尘器等无不吸引了众多传媒的目光以及用户的拥有欲望。语音不仅是“锦上添花”,使应用更方便的技术,而且常常“雪中送炭”。例如印尼政府近日为盲人开设了一个有声网站www.mitranet.or.id,看不见屏幕的盲人也能在该网站的语音提示下进行上网操作,大大方便了盲人与世界的交流。而且很多应用已带来了巨大的经济效益。如几年前Bell实验室研制出的ZeroPlus自动语音应答系统为AT&T电话公司每年节省1亿美元的人工服务费用,该系统根据美国的多种电话付费方式,通过自动语音交互应答,自动识别用户的付费方式。韩国使用语音股票交易服务的用户以四五十岁的人士居多,虽然只占了整体用户的20%,却是交易量最高的一群。

  争夺也很激烈,早在1998年市场上销售的语音识别系统已经超过80多种。2001年中国市场上语音产品也已经形成了一定的市场规模。IBM和Intel 在中国市场上已经努力了很久,IBM的语音识别软件占据了大半的市场份额。2000年底两大巨人牵手,IBM中国与Intel中国Dialogic分部联合推出了语音开发平台。国内企业很小很弱,但是拥有一些语音合成方面的核心技术,应该说市场机会还是有的。

【互联网周刊消息】 2001/06/21



相关链接:
炎黄新星与新华世纪联手推出《新华音霸KingVoice 1.0》 2001-06-08
统一消息平台中的语音技术 2001-06-04
数据挖掘走入语音处理 2001-06-04
语音技术的拓展与展望 2001-06-01
语音门户:让网络接入更便捷 2001-05-11