VoiceXML简介_语音合成_语音识别

VoiceXML简介

黄伟峰 2001/04/19

　　为了促进CTI技术和语音技术的发展，IBM、Lucent、AT&T和Motorola四大通信公司成立了VoiceXML（Voice Extensible Markup Language，语音扩展标记语言）的论坛。这种新的语音技术，使用户能通过电话和语音来访问Internet。这项技术能够帮助企业、电信公司、互联网公司增加网络使用率，提高用户忠诚度，开发新市场，从而增强企业的竞争力。

一、VoiceXML的起源

　　 VoiceXML 是一个新的通过语音对话访问Web 内容和交互语音应答的传递标准。在 1999 年初，IBM、Lucent、AT&T和Motorola成立了 VoiceXML 论坛，来协调现有的语音技术，以使用户可以通过声音和电话访问互联网。语音技术不但让那些由于环境或生理限制无法使用图形化浏览器的人得以访问 Web，也为所有的用户提供了更为便捷的Web访问功能。

　　新的语音技术可以创建出对话驱动的应用程序,例如语音识别技术（ASR）、语音合成技术(TTS)以及在 PC 和服务器(分发到客户端设备)上记录和回放数字化语音。VoiceXML 提供了一种与技术无关的语言，可以用在语音应用程序中。这些应用程序将后端处理语音的服务和处理机制与前端基于 VoiceXML 的表示层分离开。例如，一个精心设计的 Web 站点可以轻而易举地支持语音驱动的浏览器(比如在移动电话上使用的那种)，同时它能支持其他的浏览器(比如WAP 浏览器或 HTML 浏览器)。当接收到来自浏览器的最初请求时，服务器将监测出浏览器的类型。如果浏览器被确认为一个语音浏览器，服务器将返回对应的 VoiceXML 页面。

　　由于VoiceXML技术和语音技术的快速发展，已经有150个以上的公司和组织加入和VoiceXML论坛（www.voicexml.org），其中包括一些非常有名的通信公司，如AT&T、Lucent、Motorola、Alcatel、Cisco、Hitachi，以及我国的华为通信公司。

二、 VoiceXML的系统结构及其应用举例

　　 VoiceXML 1.0规范基于W3C的工业标准XML，为语音和电话应用的开发者、服务提供商和设备制造商提供了一个智能化的API。VoiceXML的标准将简化Web上具有语音响音服务的个性化界面的创建，使人们能够通过语音和电话访问网站上的信息和服务，同时与CGI（PERL、PHP、C、JAVA SERVLET等）的脚本结合在一起来检索后台数据库，访问企业内部网，从而最终将语音浏览器与微型浏览器融合在一起，实现计算机网络与电话技术的完美结合。

　　同传统的Internet网站相比，在不需要太大的改动前提下，只要增加一个VoiceXML的服务器，处理来自PSTN的应用即可。在VoiceXML的服务器中，包含了VoiceXML的解释器(VoiceXML解释程序语境)、VoiceXML自带的浏览器、自动语音识别（ASR）及文本到语音（TTS）的转换设备。

　　 VoiceXML解释程序是一个计算机程序，它解释一个VoiceXML文件，引导和控制用户与执行平台之间的交互作用。VoiceXML解释程序语境也是一个计算机程序，用一个VoiceXML解释程序解释一个VoiceXML文件，并且可以与执行平台相互作用，而与VoiceXML解释程序无关。

　　比如，用户想知道Intel公司的当前股价，就打电话到提供该服务的公司，通过DNURI的映射，到达了该网站的VoiceXML的服务器。VoiceXML的服务器马上调出相应的VoiceXML文件，由VoiceXML解释程序处理，通过TTS产生语音输出，来回复用户的请求。当然，在处理VoiceXML文件的过程中，有时还需交给后台的CGI程序处理，处理后的结果由Web Server交给VoiceXML Server处理。处理后，用户可能会听到的回答是“Welcome to the stock market,which stock price would you like to know?”,其对应的VoiceXML文件为Welcome.vxml。用户只需回答他（她）所感兴趣的股票，如“Intel”。

　　这样用户就摆脱了传统IVR令人模糊不清的一大堆选择。用户的回答通过VoiceXML Server的处理，交给后台的CGI程序查询数据库中的有关Intel股票的价格，再由VoiceXML Server的处理，用户听到的可能就是一个非常具体的回答—“$55”。

三、 VoiceXML的特点和应用范围

VoiceXML作为一种标记语言，主要有以下特点：

1.通过每一文件里指定的多重的交互功能，将客户机/服务器之间的交互工作最小化。
2.应用开发者与底层的软件和系统平台上的软、硬件细节无关。
3.将用户交互作用的代码（在VoiceXML中）从服务逻辑（CGI 脚本）中分离出来。
4．要使提供的服务能随处可得，必须令服务能够跨越不同的执行平台。对于内容服务商、工具提供商和平台提供商来说，VoiceXML正是一个跨平台的公共语言。
5．简单的交互功能非常易于使用，所提供的语音界面能支持复杂的对话。

　　 VoiceXML语言通过语音应答系统实现人机交互通信，其范围包括: 合成语音的输出（TTS）、音频文件的输出、话音输入的识别、DTMF输入的识别、语音输入的录音、电话功能向呼叫转移等。

　　 VoiceXML提供字符和语音输入收集，将输入分配给文件定义的请求变量，并且在用户回答后做出决定的方法。通过通用资源标示符（URI），VoiceXML可确定文件是否被连接到其他的文件。

VoiceXML在以下领域内有广泛的应用:

1.信息的获取，如股票信息、天气情况、体育消息、交通信息等。
2.电子交易（包括电子商务、电子零售），如银行的账户查询、存取、股票交易等。
3.电信领域的服务，如Unified Message(统一消息)、Call Center（呼叫中心）等。

《计算机世界》2001/04/19