声纹识别的关键问题_语音识别

声纹识别的关键问题

2011/01/05

　　声纹识别可以说有两个关键问题，一是特征提取，二是模式匹配(模式识别)。

　　特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同，声纹识别的特征必须是“个性化”特征，而说话人识别的特征对说话人来讲必须是“共性特征”。虽然目前大部分声纹识别系统用的都是声学层面的特征，但是表征一个人特点的特征应该是多层面的，包括：

与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等；
受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；
个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。

　　从利用数学方法可以建模的角度出发，声纹自动识别模型目前可以使用的特征包括：

声学特征(倒频谱)；
词法特征(说话人相关的词n-gram，音素n-gram)；
韵律特征(利用n-gram描述的基音和能量“姿势”)；
语种、方言和口音信息；
通道信息(使用何种通道)；等等。

　　根据不同的任务需求，声纹识别还面临一个特征选择或特征选用的问题。例如，对“信道”信息，在刑侦应用上，希望不用，也就是说希望弱化信道对说话人识别的影响，因为我们希望不管说话人用什么信道系统它都可以辨认出来；而在银行交易上，希望用信道信息，即希望信道对说话人识别有较大影响，从而可以剔除录音、模仿等带来的影响。

　　总之，较好的特征，应该能够有效地区分不同的说话人，但又能在同一说话人语音发生变化时保持相对的稳定；不易被他人模仿或能够较好地解决被他人模仿问题；具有较好的抗噪性能；……。当然，这些问题也可以通过模型方法去解决。

CTI论坛报道