声纹识别与数据安全_语音识别

声纹识别与数据安全

郑方邓永强 2003/04/17

　　自1946年世界上第一台冯-依曼计算机面世以来，在半个多世纪的时间里，计算机硬件按摩尔定律(芯片产业每18个月速度增长1倍)迅猛发展；而微软公司等软件生产商所开发的高质量软件，相辅相成，给人类使用计算机带来了很大的方便；这些都使人类的能力得到延伸。网络技术的飞速发展又使得人类所生活的地球变成了一个“地球村”，人类的活动空间变大了，在某种意义上讲，人类的活动和交流甚至可以跨越时间和空间的障碍。因此可以说，由于计算机及其技术的飞速发展而推动的信息化进程，极大地改变了人们的生活方式，并提高了人类的生活质量。

　　然而，在人们享受着信息化所带来的好处的同时，人们也面临着“个人隐私有被信息化吞食的危险”。

　　美国计算机安全企业Cryptography Research公司近日指出，由于计算机性能18个月倍增这一所谓“摩尔定律”的作用，计算机系统越来越脆弱，安全专家称，这就是摩尔定律的负面影响。

　　Cryptography Research公司总裁、安全专家Paul Kocher说，在摩尔定律的作用下，计算机性能提高了，但是系统也日益复杂化，这就为非法入侵者增加了进攻手段和机会。

　　2002年11月29日《北京青年报》报道(http://finance.sina.com.cn)“京城第一税案开审,三税官玩忽职守损失2.8亿”：由于当事人经常把进入系统的专用IC卡随意放在抽屉里、桌子上，导致罪犯趁机非法操作增值税防伪税控系统。

　　2003年1月6日，《环球时报》报道：一伙窃贼躲过美国凤凰城“三西健康保健公司”的保安系统，进入了这家公司的一座大楼，偷走了数台笔记本电脑和台式电脑的硬盘，以及一些文字资料，然后逃之夭夭，从而使50多万份军人医疗保健档案被盗。日本政府从2002年8月开始建立的全国居民个人资料联网系统(即我们所说的“电子身份证”)，用以存储日本1.26亿国民的个人信息，包括姓名、住址、出生年月、性别和新的身份证号码，而开始运行仅5个月的电子身份证系统就连续发生了2次严重的资料泄密事件。

　　这些事件的发生，促使人们考虑这样一个问题，那就是：在信息化时代如何保护个人隐私。试想在把个人资料加以整合进行集中管理，只用一张IC卡就能完成各种活动，从而可以极大地提高工作效率和生活质量的同时，如何才能防止系统被非法或非授权闯入？如何才能有效地防止被记录下来的个人资料被窃？

一、用生物特征进行身份认证

　　为了有效防止类似事件的发生，必须严格限制系统操作员，防止系统被非授权者非法闯入。而密码或IC卡等具有先天性安全缺陷的身份认证手段，必将被更为有效的方法所取代，那就是利用生物特征进行身份认证的技术。正如比尔·盖茨所说：“以人类生物特征(指纹、语音、脸像等)进行身份验证的生物识别技术，在今后数年内将成为IT产业最为重要的技术革命。”

　　那么有那些生物特征可资使用呢？下面举例说明。

　　1.1面孔
　　人的面容各异，世界上没有长得一模一样的两个人，即使是双胞胎，用人类学方法测量也可发现差异。把人脸面部各个解剖部位间的点、线测绘出来，用红外线对面部热相进行扫描，就可以进行人脸识别。

　　1.2指纹、手指和掌纹
　　指纹(Finger prints)是人手指末端掌面皮肤乳突线隆起形成的花纹；而在人手掌上形成的这种花纹称为掌纹(palm prints)；另外在人的脚掌面上也有类似的花纹。

　　指纹可分上百种图形，每个指纹又由13种不同形状的点、线等排列组合成近百个特征点，加之各特征点、线间的位置、分布又不同，而使指纹的特异性、稳定性、遗传性"终生不变，万人不同"。法国有人报告，指纹上的细节特征按数学方法可以归纳为4种，而每个指纹约有100个细节，经排列组合得出61位数，假定一个世纪内有50亿人口，即有500亿个指头，经推算发现，人类要经过50位数字的世纪才可能出现绝对重复的指纹，故实际上世人中不可能有两个指纹完全相同的人，所以说，指纹是公认的个人认定绝对可靠的标志，并已在法庭科学中得到很长时间的应用。我国古代一直以指纹画押证明个人身份，并为世界各国推崇，可见指纹是举世公认而且是不可仿冒的个人标记。

　　另外，美国科学专家对4,000名飞行员的手指逐一测试，结果发现每个人的手指都不一样长。这一意外发现促成了一种用手指长度辨别身份的机器的诞生。

　　人手掌纹的形成及其特异性与指纹相同。手掌形根据人类学方法测量，可找出每个人之间的差异，但其准确性远不如指纹。

　　1.3虹膜
　　人眼虹膜位于眼角膜之后，水晶体之前，其颜色因含色素的多少与分布不同而不同。透过角膜可见虹膜呈圆盘状，中央有一小孔称瞳孔，瞳孔依环境的明暗，可自动缩小或扩大。圆盘状的虹膜以中央的瞳孔为中心，向周围有辐射状的纹理和小凹，犹如裙子折。瞳孔缩小时纹理变直；瞳孔扩大时纹理呈波浪形，虹膜上的纹理、血管、斑点等细微特征人各不同。

　　1.4视网膜
　　瑞士科学家发现每个人的视网膜图纹也都是不同的。人眼球视网膜的中央动脉，在眼底至视神经乳头处分为上下两支，然后在视网膜颞侧上下及鼻侧上下再分为4支小动脉，各支小动脉再逐级分的更细、更小，以至在视网膜上形成四通八达的毛细血管网，此即临床医生观察眼底诊病的眼底血管图。这些血管逐级分支以至成网，正如参天大树逐级分出树杈形成许多树叶，绝无完全相同的两个眼底血管图。如果某个体眼底血管有先天变异，或后天变异血管或眼底发生病变，则更增添了鉴别的特殊标志。因此，在法庭科学上将眼底视网膜血管图视为个人识别的优选方法之一。

　　1.5气味
　　每个人的身体散发出的气味都是不同的。当一个人在一个地点活动时，他散发出的气味就会留在周围的空间内，人离去后气味不会马上消失。将气味收集起来，经浓缩转移到清洁无味的布上就称为“味纹”，用电子鼻或警犬能准确区分不同人的“味纹”。

　　1.6 DNA
　　DNA(脱氧核糖核酸)存在于一切有核的动、植物中，生物的全部遗传信息都贮存在DNA分子里。DNA结构中的编码区，即遗传基因或称基因序列部分占DNA全长的1/10~1/30，这部分就是遗传密码区。

　　就人来讲遗传基因约有十万个，每个均由A、T、G、C四种核苷酸按次序排列在两条互补的螺旋的DNA长链上。核苷酸的总数达30亿左右，如随机查两个人的DNA图谱，其完全相同的概率仅为三千亿分之一，这一概率远低于目前世界人口总数的倒数，所以其认定个人的价值可看作是100%。

　　1.7血管纹路
　　美国科达公司工程师乔·莱斯发现，每个人手背上树状血管的脉络纹路都是不同的，即使是孪生兄弟姐妹也不具备相同的血管纹路，因为这与后天影响有关，其形成及意义与网膜血管相同，但远不如视网膜血管那么繁杂，而且透过皮肤可视的血管又有限。血管纹路识别仪主要由电脑和红外摄像机组成。其录入存储与检查的方法均较简便，只需把紧握拳的手放在摄像机下数秒钟，经计算机与存储的图像比较后即可认定或否定的结论，这不失为更简便的一种。

　　1.8声纹
　　所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。
　　人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

　　1.9其他生物特征
　　人类还有其他可以进行身份鉴别或确认的生物特征，如指法、笔迹、签名、步态、耳形等等。所有这些生物特征在进行身份鉴别或确认时，其普遍性、唯一性、永久性、易获取性、可区分性、防伪能力以及用户接受程度等等，都不尽相同，因此，在不同场合、不同应用环境下，应选择不同的特征。目前，在全球用生物特征进行身份鉴别和确认的应用中，各种生物特征的使用比例分别为：手指34.7%，手31%，声音15.8%，面孔7.1%，AFIS(自动指纹辨认)4.4%，虹膜3.7%,签名2.7%，视网膜0.6%，等等(1999年底数据)。

二、声纹识别及其应用

　　声纹识别的应用有一些缺点，比如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响；比如不同的麦克风和信道对识别性能有影响；比如环境噪音对识别有干扰；又比如混合说话人的情形下人的声纹特征不易提取；……等等。尽管如此，与其他生物特征相比，声纹识别的应用有一些特殊的优势：(1)蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高；(2)获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备；(3)适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录；(4)声纹辨认和确认的算法复杂度低；(5)配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率；……等等。这些优势使得声纹识别的应用越来越收到系统开发者和用户亲睐，声纹识别的世界市场占有率15.8%，仅次于手指和手的生物特征识别，并有不断上升的趋势。

　　2.1声纹识别的分类
　　声纹识别(Voiceprint Recognition, VPR)，也称为说话人识别(Speaker Recognition)，有两类，即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。不管是辨认还是确认，都需要先对说话人的声纹进行建模，这就是所谓的“训练”或“学习”过程。

　　从另一方面，声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。与文本有关的声纹识别系统要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音，因此可以达到较好的识别效果，但系统需要用户配合，如果用户的发音与规定的内容不符合，则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容，模型建立相对困难，但用户使用方便，可应用范围较宽。根据特定的任务和应用，两种是有不同的应用范围的。比如，在银行交易时可以使用文本相关的声纹识别，因为用户自己进行交易时是愿意配合的；而在刑侦或侦听应用中则无法使用文本相关的声纹识别，因为你无法要求犯罪嫌疑人或被侦听的人配合。

　　在说话人辨认方面，根据待识别的说话人是否在注册的说话人集合内，说话人辨认可以分为开集(open-set)辨认和闭集(close-set)辨认。前者假定待识别说话人可以在集合外，而后者假定待识别说话人在集合内。显然，开集辨认需要有一个对集外说话人的“拒识问题”，而且闭集辨认的结果要好于开集辨认结果。本质上讲，说话人确认和开集说话人辨认都需要用到拒识技术，为了达到很好的拒识效果，通常需要训练一个假冒者模型或背景模型，以便拒识时有可资比较的对象，阈值容易选定。而建立背景模型的好坏直接影响到拒识甚至声纹识别的性能。一个好的背景模型，往往需要通过预先采集好的若干说话人的数据，通过某种算法去建立。

　　如果技术达到一定的水平，可以把文本相关识别并入文本无关识别，把闭集辨认并入开集辨认，从而提供更为方便的使用方法。比如北京得意音通技术有限公司的“得意”身份证就是文本无关的、开集方式的说话人辨认和确认，“得意”身份证SDK还提供建立背景模型的工具。

　　2.2声纹识别的关键问题

　　声纹识别可以说有两个关键问题，一是特征提取，二是模式匹配(模式识别)。

　　特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同，声纹识别的特征必须是“个性化”特征，而说话人识别的特征对说话人来讲必须是“共性特征”。虽然目前大部分声纹识别系统用的都是声学层面的特征，但是表征一个人特点的特征应该是多层面的，包括：(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等；(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发，声纹自动识别模型目前可以使用的特征包括：(1)声学特征(倒频谱)；(2)词法特征(说话人相关的词n-gram，音素n-gram)；(3)韵律特征(利用n-gram描述的基音和能量“姿势”)；(4)语种、方言和口音信息；(5)通道信息(使用何种通道)；等等。

　　根据不同的任务需求，声纹识别还面临一个特征选择或特征选用的问题。例如，对“信道”信息，在刑侦应用上，希望不用，也就是说希望弱化信道对说话人识别的影响，因为我们希望不管说话人用什么信道系统它都可以辨认出来；而在银行交易上，希望用信道信息，即希望信道对说话人识别有较大影响，从而可以剔除录音、模仿等带来的影响。

　　总之，较好的特征，应该能够有效地区分不同的说话人，但又能在同一说话人语音发生变化时保持相对的稳定；不易被他人模仿或能够较好地解决被他人模仿问题；具有较好的抗噪性能；……。当然，这些问题也可以通过模型方法去解决。

　　对于模式识别，有以下几大类方法：

　　(1)模板匹配方法：利用动态时间弯折(DTW)以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)；
　　(2)最近邻方法：训练时保留所有特征矢量，识别时对每个矢量都找到训练矢量中最近的K个，据此进行识别，通常模型存储和相似计算的量都很大；
　　(3)神经网络方法：有很多种形式，如多层感知、径向基函数(RBF)等，可以显式训练以区分说话人和其背景说话人，其训练量很大，且模型的可推广性不好；
　　(4)隐式马尔可夫模型(HMM)方法：通常使用单状态的HMM，或高斯混合模型(GMM)，是比较流行的方法，效果比较好；
　　(5)VQ聚类方法(如LBG)：效果比较好，算法复杂度也不高，和HMM方法配合起来更可以收到更好的效果；
　　(6)多项式分类器方法：有较高的精度，但模型存储和计算量都比较大；
　　(7)……

　　声纹识别需要解决的关键问题还有很多，诸如：短话音问题，能否用很短的语音进行模型训练，而且用很短的时间进行识别，这主要是声音不易获取的应用所需求的；声音模仿(或放录音)问题，要有效地区分开模仿声音(录音)和真正的声音；多说话人情况下目标说话人的有效检出；消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响；消除信道差异和背景噪音带来的影响；……此时需要用到其他一些技术来辅助完成，如去噪、自适应等技术。
　　对说话人确认，还面临一个两难选择问题。通常，表征说话人确认系统性能的两个重要参数是错误拒绝率和错误接受率，前者是拒绝真正说话人而造成的错误，后者是接受集外说话人而造成的错误，二者与阈值的设定相关。在现有的技术水平下，两者无法同时达到最小，需要调整阈值来满足不同应用的需求，比如在需要“易用性”的情况下，可以让错误拒绝率低一些，此时错误接受率会增加，从而安全性降低；在对“安全性”要求高的情况下，可以让错误接受率低一些，此时错误拒绝率会增加，从而易用性降低。前者可以概括为“宁错勿漏”，而后者可以“宁漏勿错”。我们把真正阈值的调整称为“操作点”调整。好的系统应该允许对操作点的自由调整。

　　2.3声纹识别的应用

　　声纹识别可以应用的范围很宽，可以说声纹识别几乎可以应用到人们日常生活的各个角落。比如下面举几个例子。

　　(1)信息领域。比如在自动总机系统中，把“得意”身份证之声纹辨认(www.d-ear.com/Technologies&Products/Products-d-Ear%20ID_ch.htm)和“得意”关键词检出器(http://www.d-ear.com/Technologies&Products/Products-d-Ear%20Word-Spotter_ch)结合起来，可以在姓名自动拨号的同时向受话方提供主叫方的身份信息。前者用于身份认证，后者用于内容认证。同样，声纹识别技术可以在呼叫中心(Call Center)应用中为注册的常客户提供友好的个性化服务。
　　(2)银行、证券。鉴于密码的安全性不高，可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认，为了提供安全性，还可以采取一些其他措施，如密码和声纹双保险，如随机提示文本用文本相关的声纹识别技术进行身份确认(随机提示文本保证无法用事先录好的音去假冒)，甚至可以把交易时的声音录下来以备查询。
　　(3)公安司法。对于各种电话勒索、绑架、电话人身攻击等案件，声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围；声纹确认技术还可以在法庭上提供身份确认的旁证。
　　(4)军队和国防。声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现，继而对交谈的内容进行跟踪(战场环境监听)；在通过电话发出军事指令时，可以对发出命令的人的身份进行确认(敌我指战员鉴别)。目前该技术在国外军事方面已经有所应用，据报道，迫降在我国海南机场的美军EP-3侦察机中就载有类似的声纹识别侦听模块。
　　(5)保安和证件防伪。如机密场所的门禁系统。又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡，把声纹存在卡上，在需要时，持卡者只要将卡插入专用机的插口上，通过一个传声器读出事先已储存的暗码，同时仪器接收持卡者发出的声音，然后进行分析比较，从而完成身份确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中，通过上面所述的过程完成证件防伪。
　　(6)……等等。
　　北京得意音通技术有限责任公司开发的“得意”身份证开发工具，可以很好应用于上述领域中。“得意”身份证有如下特点：(1)文本和语言无关性。用户训练系统和系统对用户的声音进行鉴别和确认，可以是完全不同的文本，完全不同的语言。(2)对语音长度没有特殊要求。用户训练系统，让其记住其声纹，只需要几秒种(如8秒)的声音；而在识别时，系统只要获得被测试人几秒(如4秒)的声音，就可以进行声纹识别。在某些情况下，比如待识别人语音很难获取时，系统可以通过一秒一秒不断累积的渐进方式，来判断说话人的身份。随着被测试者说的话的累积长度不断增加，系统识别的准确性越来越高。(3)很高的精度。“得意”身份证技术的辨认和确认准确度都很高，可以到达接近100%的准确率。(4)模型小。存储每个人声纹的存储<5KB。(5)操作点调整方便。“得意”身份证技术允许开发者方便地调整操作点参数。

三、声纹S锁-数据安全的卫士

　　在本文开头所谈，国际互联网和无线通信技术的普及和推广，在给人们带来极大方便的同时，也给重要数据和个人隐私带来被信息化吞食的危险。那么是否有解决方案呢？答案是肯定的。
　　比如，我们可以设计一种USB接口的声纹S锁。对于S锁持有者计算机上重要数据的存取，必须以下两个条件同时满足：
　　(1)持有S锁并将其插入计算机的USB接口；
　　(2)由S锁合法用户本人口述命令经声纹鉴证系统确认与S锁中锁存的声纹一致。

　　北京得意音通公司在国际上率先推出的“声纹S锁”，利用对人类具有唯一性的声纹这个主要的生物特征，把具有全部自主知识产权和国际领先的声纹识别技术和数据安全技术紧密结合在一起，对个人电脑甚至服务器中的重要数据进行双重安全认证，保证了数据的安全性，声纹和钥匙同时正确才可以存取数据，即使硬盘丢失数据也不会失窃。还无需记忆密码，因为声纹就是密码，人在密码在，免除记忆密码的烦恼，也无需担心被别人破解或者偷窃密码。

　　从此，人们就可以方便地应用先进的声纹识别技术，管理自己的电脑和电脑中的信息。你可以象阿里巴巴一样对着电脑麦克风口述你的命令,只需随意讲出几句话，就电脑就乖乖地听话，打开只属于你自己的信息“保险箱”,实现强有力的Windows安全登录、身份认证、文件加密存储、访问权限控制等功能，有效地保护保存在个人计算机上的个人隐私信息、重要业务数据和系统中的应用软件，使其不被偷看、窃取、泄露、篡改或破坏。更重要的是，由于声纹的唯一性特征，“声纹S锁”只认识你的声音，只给你开门，别人企图模仿你的声音和口令、偷窥你的信息也是很难做到的。

　　科技不仅在你身边，还在你身上、嘴边。科技的发展，有时候会带来很多新的困扰，比如数据安全的问题。因此，科技应该更人性化，为人们创造的轻松和愉快的数字化生活。声纹识别技术，就是轻松、愉快的数字化生活的阿里巴巴魔咒。

作者供稿原文刊登于新浪科技《权威学术报告》专栏