高端人声识别技术的研究与应用_语音识别

高端人声识别技术的研究与应用

2001/08/02

一、技术背景

是否有过这样的经历？已经是某某企业呼叫中心的常客了，但拨通该呼叫中心的号码时，还是必须向客服人员解释你是他们某某产品的用户，而今你必须获得他们的维修服务。这个自报家门的工作其实足够繁琐到令你放弃这次呼叫。

但有一种新型的技术可以让你在拨通电话、发出第一个音节时就被“验明身份”。设想你拨打一个很久以前曾拨打过的呼叫中心号码，准备询问呼叫中心的客服人员你罢工的油烟机该找谁修理。根据语音提示进入服务区后，“hi，我…”你的请求还没有说完，客服小姐已经在向你问候了：“王女士，您的油烟机用的怎么样了？”

在这个过程中，客服小姐是利用呼叫中心的SR系统，根据王女士的声音，对其身份进行鉴别的。所以无需浪费任何时间，客服小姐在第一时间知道电话请求者是王女士。至于她有一台该呼叫中心所属企业售出的油烟机的事情，客服小姐是从系统的数据库里知道的。

人声识别技术（SR——Speaker Recognition）是一种以话音对说话人进行区分，从而进行身份鉴别与认证的技术。坠落在中国海南的美国EP-3飞机被宣称藏有大量说话人识别技术的机密，据说其技术水平已经可以区分出“是谁打的嗝儿”。在国外，说话人识别技术被广泛研究，也已有少量成熟产品问世。AT&T、TI（美国德州仪器公司）与美国著名的通讯公司Sprint已经开始在声音识别领域的实验和实际的应用。

说话人识别技术有着广阔的市场应用前景。通过SR技术，可以利用人本身的生物特性进行身份鉴别，如给公安部门进行语音验证、对一般用户进行防盗门开启等。在互联网应用及通信领域，SR技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音Email、安全控制、计算机远程登陆等。

在呼叫中心应用上，SR技术同样可以提供更加个性化的人机交互界面。当顾客以电话方式对呼叫中心进行请求时，系统能够根据话音判断出来者的身份，从而提供更个性化、更贴心的服务。在国内的SR研究中，已经处于怎样的进展水平？据了解，南京北极星软件公司的研究走在了国内其他厂商的前列，其采用SR技术构造的呼叫中心产品也即将推出。

二、技术原理

SR有着深刻的技术背景。其基本原理是通过分析人的发声和听觉，为每个人构造一个独一无二的数学模型，由计算机对模型和实际输入的语音进行精确匹配，根据匹配结果辨认出说话人是谁。该原理同说话人的生理特性和行为特性密切相关。“人”的生物特性既存在于声谱表面（声道特性），也存在于声音的来源或数个不连续的声音片断。从人的这些特性中提取出有效的音频特征，进行数学建模，并将与之相关的资料存进数据库。SR服务器根据输入的音频特征在数据库里进行检索，从而进行精确匹配。

在北极星公司的研究中，构造了“训练模块”和“识别模块”，两种模块使用同样的数学算法和模型。

训练模块

训练模块又由两个部分组成：音频特征提取部分和构造数学模型部分。

音频特征提取时，根据人的发声原理和听觉原理，采用了MFCC和LPCC的特征提出算法。该算法可以将人的声音提取出能量分布谱。这种算法能从声音数据中获得说话人的独特特征。但是当人说不同的话时，分布谱会受到影响。也就是说即使是同一个人，如果说的话不同，声音分布谱也是不同的。为解决这个问题，必须进行第二部分，构造数学模型。

构造数学模型时，使用了GMM和CHMM的算法。它可以将人在多个短时间内的能量分布谱构造成多个高斯分布。通过EM算法进行训练，找出最为合理的高斯分布组。实验中，北极星为每个接受训练者构造一个独一无二的数学模型。

识别模块

识别模块也由两个部分组成：音频特征提取部分和数学模型的概率估计部分。

音频特征提取时，采用的方法和训练模块相同。

做概率估计时，将特征提取的结果带入原来训练出来的数学模型中，计算出概率，将多个特征谱的概率取对数求和，即计算出该人符合这个数学模型的概率。概率较大时即可进行身份确认和检验。

三、技术应用

SR技术的应用在国际上已经比较成熟。Sprint的声音电话卡（Voice Phone Card）拥有众多的用户。电话卡的拥有者只需对着电话念出对方的电话，智能卡根据声音进行鉴权，判断说话人是否是电话卡的合法使用者，从而做出拨通与否的决定。在这种方式中，SR技术创造出的增值业务为运营商带来丰厚的收益，也为我们的日常生活带来便利。

在我国，由于汉语言的独特性，国外SR研究的技术成果无法直接使用。国内众多厂商也缺少语音方面的技术积累，进入该领域的步伐相对滞后。为了将这种尖端的技术引入中国，北极星软件已经开始了自己的研究历程，并致力于将现有的研究成果产业化，结合到其呼叫中心产品FineSupport IP Contact Center中来，增加产品的实用性和科技含量。

SR技术的这种特性应用在呼叫中心等语音产品上时，能为之带来前所未有的变革。

目前几乎所有的呼叫中心都采用来电显示的方法来对发起呼叫请求的用户进行身份鉴别。这种方法有极大的不确定性。当不同的用户使用同一个电话号码进行呼叫时，呼叫中心系统无法对之进行相应的区分；另一个问题，同一个客户不会也不可能仅使用一个电话同呼叫中心进行联络，如果客户更换电话，呼叫中心同样不能认出这是“老朋友”，从而无法迅捷地提供个性化的服务。

北极星软件公司将SR的研究应用到呼叫中心产品，在原有的系统中加入了语音鉴别设备SR Server（说话人识别服务器），从而能够通过客户的声音进行检索，解决了一个客户使用多个电话和多个客户使用一个电话、不同客户交叉使用不同电话的问题，为客户提供真正“一对一”个性化的服务。这种新型FineSupport IP Contact Center的结构图如下：

其工作过程如下：

1. 用户拨打呼叫中心的电话号码；

2. 由ACD响应，并将电话接入IVR（交互语音应答系统），询问客户需要帮助的类型，并将客户的语音应答传送到SR Server；

3. SR Server根据原有的语音训练模型对该用户进行识别，并到数据库进行认证和检索；

4. 如果此时有接线人员处于空闲状态，ACD将这个呼叫转移，并同SR Server识别的结果传送到接线人员的计算机上；

5. 如果SR的识别结果为空（此前该用户没有拨打过本呼叫中心的电话），系统可以为该用户建立模型，以供下次识别时使用。

四、未来方向

SR未来的发展方向包含两方面的内容：研究方法和市场应用。

在SR的研究方法上，尽管北极星已经取得不错的进展，寻找更加优良的研究方法仍然有相当艰巨的路要走。由于技术条件所限，目前所采用的抽样建模方法等还存在着不足。对SR最有影响的因素是在不同实验中声音特性信号的变更，包括说话者生理上的变动性，以及实验条件的不稳定性等。这就对SR识别系统形成严峻的挑战。它必须能适应这些变化。SR的未来研究中将包含提取声音长期稳定的特征参数的问题。另外，在两个人进行交谈时，能自动从中提取出每个人的声音特性并加以区分的技术也是值得研究的方向。在下一步的研究中，北极星将继续提高系统的识别率，同时进行更大规模的电话语音测试。

SR的市场应用也是一个重要的课题。毫无疑问，随着研究技术的日臻完善，SR的市场应用也将趋于成熟。FineSupport的崛起打开了SR在中国应用的缺口，为企业建立个性化的呼叫中心提供了更多的选择，增加了可行性。在相关法律、金融等领域，SR技术也将是其尝试运作崭新工作方式的契机。

摘自计算机世界网