探寻声纹认证技术的产业化模式_语音识别

探寻声纹认证技术的产业化模式

覃文华 2006/02/24

　　信息时代的到来给我们的生活带来了极大的变革，身份认证在信息时代也有了新的内涵。基于对传统身份认证缺陷的考虑，利用生物特征的身份认证由于采用了人体固有的生理和行为特征而展现出极大的优越性，其中，声纹认证技术便是最典型的代表。

　　声纹识别认证技术与传统身份认证技术有着显著区别，并且也有别于其他生物特征认证技术。目前“人-计算机、计算机-计算机、计算机-人”之间的交互模式，现有的基于网络的远程身份认证手段，包括业界最认同的PKI/ CA技术，最终都摆脱不了对“物”的依赖，都普遍存在“认物、不认人、不能识别主观意识”的致命缺陷。而包含有语音、语义、语境及个人声纹特征的人类话语，作为人类最原始、最符合人性、最为便捷的信息交流方式，是最适合用来转变上述信息技术应用的潜在危局的手段。

　　人与人以自然的话语模式，通过普适网络系统所进行的任何远程交谈和交易，将能够同时包涵参与人的身份信息和个人以话语、语境、意识等所表达的信息，远远超过“文本”能包含的信息。

　　任何技术的产业化，都需要学术界、产业界和投资界的充分介入。为了做好声纹基础技术产业化的应用和推广，还需要不断地进行研发和提升，这就需要得到学界的支持，以共同形成一个持续的研发环境，为此北京得意升文技术有限公司与清华大学信息技术研究院合作，投资成立了“清华大学－得意升文”声纹处理联合实验室。

　　“清华大学－得意升文”声纹处理联合实验室管委会主任覃文华认为，在学企双方成立联合实验室的基础上，要形成声纹身份认证技术的产业化还需要三个方面的支撑。首要的是声纹识别的基础技术和专利。如果没有获得基础技术的支撑，没有获得一批应用型的基础专利，那么整个产业化应用就是无本之源。在中文语言资源方面的计算机技术领域，中国的技术所处的领域已经达到国际先进水平，甚至是国际领先的信息技术领域，这些技术基础是形成声纹认证产业化的最重要的支撑。

　　其次，所有的产业化应用必须要有一个应用和基础技术之间的良好接口。如果不能规模化，所有的基础技术无法进入实际的应用领域。在这一领域，“清华大学－得意升文”声纹处理联合实验室经过大量的沟通和工作，获得了许多战略合作伙伴的认同，已经完成了前期沟通和准备，并将于近期与国家信息中心合作建设一个海量（千万级）声纹数据库，从而为电子政务、征信系统、电子商务、门户网站等领域所需的各类应用提供开放性的基于声纹的多模态精准认证基础平台。

　　第三，产业的形成还要以海量声纹库为基础，开发出一系列有针对性的应用产品，并以此服务于政府、企业和个人用户。在此基础上，还需积极与银行、电信、民航、零售等民用行业领先企业合作进行各行业垂直应用开发，共同进行基于声纹认证技术及海量声纹库的商业应用模式的孵化和培育，从而为更为广泛的用户群提供便捷的、个性化的、安全的服务。

得意音通公司供稿原文刊登在科学网