讯飞语音互联网解决方案
2001/07/31
一、市场机遇分析
1、互联网信息的爆炸性增长
近年来,全球范围内Internet出现了爆炸性的增长,在极大的提高全社会的运作效率的同时,自身也在使用成本、可用性、易操作性等方面不断进步;现在Internet的主体显然已经是全球广大网民了。据中国互联网中心年初的调查报告,目前有约2000万人使用互联网,而其中80%以上的用户使用互联网主要的目的就是获取信息。随着互联网信息的爆炸性增长人们对于信息的需求也有了越来越高的要求:
在信息的获取手段上,电话、传真、计算机、PDA等各种多媒体信息终端竞相发挥着自己的优势,但同时人们更希望能够不受任何时间、空间以及设备的限制更自由的获取信息;随着工作与生活节奏的加快,使信息的时效性尤为凸显,股市行情、价格动态、促销信息等等动态信息为信息供求双方带来巨大的经济效益,而来自于计算机网络和数据库中的信息,利用先进的计算机技术进行搜索和整理之后为人们提供的信息在市场全球化趋势下显得更为重要;互联网为用户提供了丰富多彩的个性化服务、交互式服务,电子商务的发展使企业与企业之间、企业与用户之间的沟通更为密切、更为深入,越来越多的人需要定制服务的类型和内容,来满足不同人的要求。
2、计算机网络设施和应用水平限制
互联网是在计算机应用普及到一定阶段的产物。而在我国,计算机网络产业的起步却早于计算机应用的普及。计算机普及率尚未达到要求,网络建设也有待加强,由于地区的差异和经济水平的限制,我国上网的企业和个人半数以上分布于沿海发达城市,对于大多数普通百姓而言,计算机应用水平仍然很低,而主动使用计算机上网获取信息的意识更有待加强。因此让互联网络带来的便利服务于寻常百姓家就存在着各种各样的障碍。
而公用电话网(PSTN)经过这些年的发展,电话终端的普及率已经达到了相当的水平,目前我国的电话网络用户超过二亿以上。相比之下使用电话获取信息更符合我国目前的信息发展现状。
3、矛盾的解决创造的市场机遇
信息的爆炸性增长、互联网服务的不断提升,和计算机网络设施和应用水平的限制成为了一对日益突出的矛盾。语音互联网运用电话服务方式所具有的广泛的普及性和使用的方便性等特点,克服了现阶段计算机网络设施和应用水平的限制,为我国的信息服务业的发展提供了一个难得的市场机遇。
因而语音互联网工程已经被各大电信运营商列入增值服务的计划之中,如移动的梦网工程。AT&T Wireless公司日前宣布,提供语音门户站点,让客户利用语音命令冲浪无线Web,提供这类服务的运营商正日益增多。
二、方案中的核心技术
语音互联网要求系统可以进行动态、海量信息的数据查询以及互联网络上信息的访问,需使用的核心技术有:
对于信息服务来说,TTS和ASR的融合意味着两重含义。其一,由于声音更加接近人类的语言,改进后的TTS增强了用户对该技术的认可程度;其二,更加自然的TTS和高质量的语音识别器能让计算机和人们进行真正意义上的对话,这样,计算机就能理解对方(人)说的什么,并且在自己模糊不清的时候,向对方(人)询问,在交流中明晰客户的需求。
1、核心技术描述
语音合成技术
语音合成技术的本质是将文本信息转化为语音信息,是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的关键技术之一。
在信息爆炸式增长的现代社会,信息有两个很显著的特征:信息量大、信息变化快。但是对于电话信息服务系统来说,它与客户之间的“界面” 主要是语音,如何用语音来传递这些海量和动态的信息,这就是必须用到语音合成技术。
传统的预录音方式,需要人工将这些信息以录音的方式预先存放好,其漫长的制作周期和繁重的工作量,显然已经越来越显得力不从心。而语音合成技术(TEXT TO SPEECH),能够将各种文字信息转化成连续的语音,是电话信息服务系统成为提供高质量、智能化的语音服务的关键技术,可以预见,语音合成技术在电话信息服务行业中将会有非常广阔的应用前景。
语音识别技术
语言是人类进行信息交流的最主要、最常用、最直接的方式。语音识别技术是实现人-机对话的一项重大突破,在国外近年来发展十分迅速,其应用也逐步得到推广。
传统电话服务从事服务性行业的公司通过大量客户服务员为客户翻查和处理所需资料,答复客户所需的资讯,但是长期聘用和培训大量这些客户服务员,成本大幅上升,并且容易造成人为的失误,严重地影响到企业的服务质量和形象。近几年逐渐普及的电话自动应答(IVR)处理了不少简单而又重复的咨询工作,节省生了不少人力,但这种按键式的语音自动应答系统却让客户花费很多时间选择按所需目录指引来完成的简单查询,令用户倍感烦恼。“语音识别”无疑可解决该方面的问题。
语音识别系统的开发成功,充分发挥计算机技术和网络技术的优势,采用先进的人-机语言对话方式,摆脱电话按键的束缚,人们只要像平常一样对着电话简单地说出所需服务项目即可轻松获取自动系统提供的所需信息。
VXML技术
AT&T,朗讯,摩托罗拉与其他17家公司于1999年联合推出语音扩展语言论坛(VXML),用以拟定一项标准,此标准能够将语音、电话用于因特网。除为消费者服务外,VXML还支持一些商务应用,如话务中心、银行交易和电子商务。
其他方面的应用包括:因特网用户核对电子邮件,获得天气预报、股市行情和其他来自电话线的在线数据。用户也可编写自己的VXML应用。AT&T,朗讯,摩托罗拉一直都在致力于VXML的不同版本,但基本途径相同。最终目标是产生统一的标准。
语音互联网是以先进的CTI技术以及开放的Voice XML工业标准为基础,架构在CHINANET网上的ICP;通过电话畅游互联网,轻松“听”网上的信息,“说”E-mail,“点击”网上的链接。这是对传统电话信息服务的一个重大改革;因为接入服务和内容服务的分离,电话信息服务行业变成了一个开放式的行业,所有传统的ICP都可以按照Voice XML的标准为提供内容服务,而丰富多样的内容又必然会刺激用户的增加以及服务需求的增长。由于引入了VXML相关技术,可将平台的复杂内容屏蔽,无须熟悉底层平台即可进行高层应用开发;大大的减轻的开发的难度,缩短开发周期,降低人力成本。
2、讯飞在核心技术上的优势
讯飞公司是国内唯一以语音为产业化方向的863成果产业化基地。讯飞汉语语音合成技术,是在国家863项目、九五攻关项目、国家自然科学基金项目、以及中国科学院八五重大项目的支持下,历经十余年拼搏成为国内外同类技术中脱颖而出的"领头羊"。
KD 2000汉语文语转换系统不仅在语音合成技术方面有进一步的发展,特别是在文本预处理中围绕层次化结构思想,运用大量的统计和规则的方法,较好地解决了三个大的处理环节:特殊符号处理,分词处理和拼接处理,使得其在整体性能有很大提高。以KD 2000文语转换为核心各种行业及桌面应用产品已开始在市场占有一席之地,并与联想、华为等业界领先厂商建立战略合作关系。
KD 2000作为讯飞主流语音合成技术的代表,拥有业界顶尖的合成效果。1999年11月18日,在国家863计划智能计算机主题专家组鉴定会上,KD 2000被评定在汉语文语转技术上处于国际领先、实用化方面已走在世界前列,并建议加速产业化进程。2000年6月,讯飞KD 2000中文语音合成系统获得了“2000年中国国际软件博览会”参展产品创新奖。
同时KD 2000已经受了行业用户的大规模大压力应用的考验,通过了国际著名服务器提供商的综合测试,同时也通过了国内最大的电信设备提供商大压力稳定性测试,以及国内计算机行业最负盛名的厂商所进行的性能测试。
随着讯飞公司的成长,讯飞已经在CTI平台领域、呼叫中心领域、系统集成行业、语音板卡领域拥有众多的开发伙伴。
在语音识别方面,讯飞是中文语音识别标准化工作组成员单位,历届863语音识别唯一指定评测单位以及国家863语音识别数据库提供单位。
而在业界语音技术规范制定过程中,讯飞作为唯一的企业代表,与科技部、技术监督 局、信标委共同制定中国中文语音技术标准接口。同时讯飞也是国家S863项目中文信息发展规划的起草单位和国内权威的语音标准制定组织��中国中文语音创业联盟的发起者与组织者。
在VXML方面,讯飞成功的开发出Voice VXML Server,可在P III 500上同时支持120并发访问。另一方面,讯飞也是VXML的权威组织——“VXML论坛”的成员之一。
三、语音互联网的建设
语音互联网的建设构架于电信运营商现有的电话接入平台之上,在不影响现有平台的结构和业务功能的前提下,主要需完成三个功能模块的系统建设。在动态信息和海量信息的查询业务上,首先必须完成的是对原有的数字录音回放方式向TTS平台的升级;进而在进行了TTS改造的平台上构建互联网上的公共信息查询服务和个性化信息查询服务;考虑到实际运用情况,在具体业务方面建设有声电子邮件系统,使语音互联网能具备Internet最重要的服务之一 ——“电子邮件服务”。
1、TTS系统的建设
传统的数字录音回放方式需要人工进行录音,新兴的计算机技术��“语音合成”,可以运用有限的系统资源将无限的文本信息合成为可听的语音信息,从而可以改进传统的录音回放方式。在不改变现有平台的基础上建立的TTS系统可以在信息服务的信息源提供上带来如下改进:
2、VXML系统的建设
互联网络是目前信息的一个最重要的载体,在互联网迅速普及并不断发展的今天,大量的公共信息可以在网络上查询得到。越来越多的信息服务商和个人在网络上提供信息,同时越来越多的人群正在享受网络所带来的便利。
电信运营商自身拥有强大的信息制作能力,但如何利用好互联网络丰富的资源,以适应信息时代用户的需求,也是一项重要的工作。
VXML系统的目的就是为了使电话和语音可以应用在互联网络之上,除为消费者服务外,VXML还支持一些商务应用,如话务中心、银行交易和电子商务。通过VXML技术可以使语音互联网访问到Internet Web上的各种信息,并实现信息的交互。再结合语音合成技术,将文本信息合成为语音信号,用户就可以通过IVR平台来访问Web页面上的信息了。
结合VXML技术,语音互联网平台可以提供更多的个人信息服务:包括商品交易、金融交易、求职招聘等。相对传统的同类服务,此类服务与Internet信息共享,更为贴近用户和可以面对更广泛的人群。
3、Voice-Mail系统建设
90年代中期,Internet进入中国,在这短短的几年内,得到了长足的发展,基于Internet上的业务日新月异。其中电子邮件不仅成为广大网民信息交流的重要手段,也成为各个企业开展商务活动的重要手段,电子邮件的用户群是一个十分巨大的群体。
但中国的国情决定了不是每一个电子邮件的用户都能够方便地查阅自己的邮件。同时,在现实生活中,也存在着许多不能及时、方便地查阅自己邮件的情况。
统一消息系统(UMS)是一个将各种传播手段整合的系统,结合了各种网络,用户可以使用电话、手机、传真、呼机、数字移动设备和个人电脑等途径与系统交互信息。在语音互联网平台中加入UMS系统,将有助于平台提供更多样化的服务,与用户结合更为紧密。
有声电子邮件(Voice-Mail)系统就是UMS系统的一个具体应用,它通过电话、手机等通信工具可以向用户提供Internet上的E-mail服务。因而人们可以不受设备的限制,随时随地的收发电子邮件,即使身处异地,仍然不会错过E-mail中携带动重要商机。
四、语音互联网业务介绍
通过以上三个系统的建设,电信运营商将可以优化本系统内的资源组合,同时结合互联网络、移动通讯网络,开发出更多更好的节目。如金融股票信息、考试查分、防伪查询、新闻点播、有声邮件等。整个系统更易于开展新种类的业务,更易于维护,资源占用更少。
从业务开发模式划分可以将其分成两个类别,海量动态信息查询和互联网信息查询。海量动态信息查询业务主要开发工作是通过现有的服务平台进行的,服务平台通过查询本系统内数据库或其他信息源取得文本数据,然后通过TTS Server提供的TTS服务返回语音数据文件播放给用户。例如:新闻查询、防伪查询、高考查分等;互联网信息查询业务将互联网络与电话公众网结合,从而使用户可以通过普及便利的电话、手机、传真等方式获取互联网上丰富的信息。具体业务如:Voice-Portal、Voice-Mail等。
1、海量动态信息查询
海量动态信息的查询主要有:证券金融信息、法律法规、政府公告、交通、运输、路况信息、旅游信息、考试信息等的查询。这类信息的特点有两个:
讯飞与一些地市160/168声讯台合作推出的为个人和机构投资者提供有关金融信息声讯服务的系统就是一个典型的应用。这项业务包括具有鲜明特色的预警系统、实时投资分析、实时股票行情、财经新闻、技术分析报告和市场评论等。投资者简单方便地通过电话(固定电话或移动电话)、传呼、短消息系统、电子邮件、传真和电脑来接收这些重要信息。系统也可随时跟踪他的投资组合为其提供个性化的信息服务。这些高度个性化的信息服务将即时通知用户其投资证券价格的变化、重要新闻和其它相关信息,提高用户的投资回报率。
2、个性化信息服务
个性化信息服务即指为个人提供的满足其具体需求的信息服务,有两个方面的要求:一是信息的及时性;二是获得信息手段的便利性。
具体业务包括:统一消息服务、个性化新闻/信息、个人信息助理、统一通信服务等。
用户只需通过电话就可以享受到互联网上提供的各种个性化的信息服务,可以定制网上新闻、设置个人行程安排。而另一方面用户在获取信息时可以采取电话、E-mail、传真等各种手段。
讯飞与上海知名的ISP联合推出的Voice-Mail系统,就是基于电话、手机、传真等通信工具,结合互联网络的电子邮件,为用户收发电子邮件提供形式多样的便利手段。
3、接入平台出租
语音互联网具有上面提及的先进功能之外,其更具备良好的可扩展性,在系统之上可以方便的拓展新的业务,可以为企业提供优质的平台,以方便企业提供更多的信息给客户,加强企业与客户之间的沟通。
具体的业务有:企业网站的电话语音访问、企业客户服务中心、物流信息平台、用户通知服务、信息采集服务等。
将此类业务出租给企业,可以将企业的网站内容直接转换成服务信息,更多的客户将可通过电话访问企业网站,为企业提供了多样化的信息发布平台。
4、电话语音广告
电话语音广告具体有提示音广告、等待时间广告、背景音乐广告等等。电话语音广告与传统广告相比具有很大优势:即时查询、内容丰富、特号专用、即时播报、广告费低、拨打者免费收听等。该类广告业务开通后,将受到企事业单位的普遍欢迎。
科大讯飞供稿 CTI论坛编辑