
微软语音和对话研究团队在去年10月宣布,运用业界常用的电话录音测试集Switchboard,微软语音识别技术错误率为5.9%,辨识能力可以达到人类的水准,近日则宣布,该语音识别技术的错误率已经降至5.1%,正式超越专业的听打记录人员。
语音识别准确度超越人类,是微软过去25年,一直想要达成的目标,微软所采用的电话对话录音测试集Switchboard,是语音研究社群采用了超过20年的测试语音识别系统标准,开发语音识别系统的过程,城程式需要自动记录不同人讲不同议题的对话,像是体育或是政治等。
与去年发布的正确率相比,微软用一系列的工具来改善类神经网路声学和语言模型,将此系统的错误率讲低,像是,增加了一项结合卷积式网路和双向的长短期记忆演算法的CNN-BLSTM,双向的长短期记忆演算法是一种时间递归神经网络(RNN),来改善声学模型。
此外,微软还透过声音的辨识单元Senone、Frame,以及单词,结合多个声学模型的预测,作为语音识别的方法,并利用过去历史对话纪录,增强语音识别的语言模型,来预测对话接下来会讲的字词,如此一来,可以模型更能够有效地判断对话的主题和内容。
这项语音识别是仰赖微软自家的深度学习框架CNTK2.1版,并利用微软的云端计算的基础架构,特别是Azure GPUs,大幅地提升训练模型的效率,也能快速地测试新设计的演算法。
微软表示,虽然系统辨识Switchboard的错误率已经达到只有5.1%,是一个非常大的突破,不过,未来还有许多可以继续钻研的问题,像是如何让机器像人一样,在吵杂的环境下,辨识出有腔调的语音、不同风格的说话方式和语言。
微软希望可以这项研究结果应用在微软自家的产品和服务上,像是语音个人助理Cortana和认知服务等。未来,不只让机器记录语音内容,还要能理解对话的意思和意图,从语音识别到理解语意,是微软接下来主要发展的语音科技目标。