首页 > 技术 > 技术文摘 > 语音识别前景如何?

语音识别前景如何?

1999-12-06 00:00:00   作者:   来源:   评论:0 点击:


  郑方,1967年生于江苏省,获清华大学计算机科学与技术专业学士、硕士及博士学位。现为清华大学副教授,清华-adidsp技术研究中心主任及语音实验室主任。郑方作为主要承担者或负责人参与了许多语音识别领域的国家重点攻关项目和863高科技项目并多次获奖。另外,他还负责开发了若干基于ti和adi的dsp语音识别产品。他的专业兴趣包括信号处理,声学/语言模型建模,孤立词/连续语音识别,关键词检出,语音听写,语言理解等。现为ieee会员,中国《中文信息学报》编委。他已发表40余篇有关语音处理的学术论文,其中数篇获奖。



  语音识别虽然已经有比较大的进步,但必须有大的创新才可能有大的突破。主要包括以下几个方面:

  1.提高系统鲁棒性和自适应能力,包括语音特征提取、声学模型、语言模型等诸多方面的鲁棒性和自适应等。

  语音的特征提取和声学模型对含噪语音、不同信道传输施加给语音的影响、不同发音人及其不同方式等要有鲁棒性和自适应能力;语言模型对各种不同的应用领域要有鲁棒性和自适应能力。

  2.在语音识别中使用语音学知识和语言学知识。语音模型的建立仍然是一个基本问题,但对什么样的发音建什么样的模型就不仅是数学建模的问题,还需把语音知识和语言知识结合起来,以高层知识作为建模和识别的引导。这些知识不管在声学模型部分还是在语言模型部分都应该尽可能应用。

  3.重视海量语音库和语料库的制作和标注。语音库用以训练语音模型,语料库则用以训练统计语言模型,它们的制作和标注有着举足轻重的地位。一个海量的、科学标注了的语音库和语料库对提高声学模型和语言模型是非常重要的。

  4.策略型和多模态方案。在目前的技术还不是特别成熟的前提下,可能需要综合利用各种已有技术来提高系统的整体性能。比如充分利用各种可以利用的特征、集成各种识别性能互补的若干识别器、结合语音识别和手写体文字识别,为用户提供各种不同应用的方案。这些都是有益的解决方案。

  5.窄带应用和口语对话应用。语音听写机之所以不能很好推广,也许是因为目前有不少出色的汉字输入方法,如全拼、双拼、五笔等。但是有些场合,如通过带宽很窄的电话线对远程的数据库进行信息检索和查询(如天气预报、旅游信息、股市行情、航班信息等)时,语音识别就会发挥很大的作用,从而会有很大的应用前景。这是因为,语音是非常自然的方式,而且由于电话上只有数字键,相对于用数字键进行逐级的需求确认来说,语音识别更具有竞争力。

  在这种应用中,需要解决的技术难点包括:(一)由于电话信道带宽窄(只有3.4khz),语音信号的信息损失较大,电话机和信道质量差异大,背景噪音和信道噪音种类繁多,因此必须有性能优异的语音增强、特征提取、语音识别与理解等算法。(二)由于说话人的在查询时使用的都是自然语言,因此必须研究口语现象。(三)必须研究语言理解技术。听写机只能解决语音到文本的转换,却不知其意;但口语对话系统必须有语言理解部分才能知道用户的查询需求,并有针对性地提供相应的信息。

  6.制定软件开发工具(sdk)。为了推广语音产品,制定方便中间开发人员使用sdk也非常重要。一些知名公司无不在此倾注力量,以期制定工业标准。如ibm的ibm sdk、微软的microsoft sapi、dragon公司的dragon sdk、以及l&h公司的spark等都是用于开发语音产品的软件开发工具。这也是国内研发机构需要学习和注意的地方。

得意音通公司供稿 原文《中国计算机报》,第91期,1999年12月6日

相关热词搜索:

上一篇:第一页

下一篇:采用IP传真提供增强型传真服务

相关阅读:

分享到: 收藏

专题