
东芝开发出语音区分技术,可快速区分10余人的声音此次开发的新技术结合“输入声音的特点”和“说话人的方位信息”来区分声音。利用声音特点区分声音时,如果说话的人数增多,声音的特点会随之增多,难以区别。东芝为解决该问题设计的方法是结合说话人的方位信息。就是根据多个麦克风所录音的相位差来推断说话人所在的方位。根据这一信息来提高分辨的准确度。
对此,存在的问题是需要特殊指向性的麦克风;推断方位的处理量大、计算成本高等。另外,由于难以区分位于同一方位的不同说话人,有时也会影响分辨性能。
为此,东芝此次开发出了使用普通立体声麦克风的快速且准确的方位推断算法和不影响分辨性能的组合算法。比如,使用配备Core i7(最大工作频率为2.7GHz)CPU和4GB主存的个人电脑,普通会议(参与者为10人左右)在录音结束后5秒左右就能完成分辨处理。分辨成功率(能否准确区分说话人声音)方面,原方法为50%左右,而新技术达到了70%以上。
新技术计划在2014年度内完成。将嵌入到会议记录辅助软件等产品中。新技术不含语音转换(如将内容做成文字数据)功能,所以有可能与该公司的语音识别技术配套提供。