首页
>>>
技术
>>>
语音应用
>>>
语音识别(ASR)
语音识别产品
颜永红:“搜索”语音识别技术的未来
2010/05/28
颜永红:中科院声学所中科信利语音识别实验室主任。
1990年毕业于清华大学,1995年获得美国俄勒冈研究院博士学位,后在该校任教,曾担任OGI口语研究中心的副主任、英特尔微处理器实验室的主任工程师和人机界面总框架师,英特尔中国研究中心的主任和首席研究员,英特尔全球人机界面学术委员会主席。
2002年入选中科院百人计划,任声学所研究员、博士生导师,中科信利语音实验室主任和所长助理。长期从事人机界面研究工作,目前从事的研究领域:大词表非特定人连续语音识别,多模口语系统,嵌入式系统,多媒体数据检索,系统自适应和快速搜索算法。
10年前,他曾是英特尔微处理器实验室的主任工程师和人机界面总框架师,英特尔中国研究中心的主任和首席研究员。
如今,他一手创办的中科院声学所中科信利语音识别实验室已发展成为国内语言声学领域规模最大、学科最全的实验室,与实验室同时成立的中科信利技术有限公司也取得了长足的发展。
两个“孩子”的长大让他倍感欣慰。而同时,他错过了两个宝贝女儿的成长,这是他最遗憾的。
“没有什么后悔的,时间无法倒流,只能往前看。”中科院声学所中科信利语音识别实验室主任颜永红说。
一项技术,牵制搜索引擎
“在不久的将来,互联网将成为一个浩大的音视频档案库,对下一代搜索引擎来说,语音识别技术是关键。”颜永红说。
在浩繁的音视频数据库中,要查找出所需的音视频片断,已经成为困扰互联网搜索的难题——目前的技术主要是搜索音视频的关键词,比如音视频的名字或作者,并没有办法搜索音视频内容。而通过语音识别技术,可以把多媒体文件变成可识别的计算机语言,从而有效快速的实现准确搜索。
事实上,语音识别技术也是各大公司竞争的一大焦点。
去年11月份,谷歌推出的语音搜索引起极大关注。用户只需在手机上安装一个软件,然后利用手机原有的麦克风,用普通话对手机说出需要查询的内容,谷歌中文语音搜索会自动返回整合的搜索结果。
“从实验室成立到现在,我们一直在做这方面的技术积累,很快,我们和国内公司合作的语音搜索将面世。”颜永红笑着说。
目前,中科信利的中文电视广播新闻节目识别系统,就已经被多家公司采用,并作为其提供给全国各电视台的数字媒体管理系统中一个核心技术模块。
这个系统立刻引起本报记者的强烈兴趣——当系统“收听”到一段“新闻联播”节目,自动将节目内容生成文字,并且识别准确率惊人地高。
“那是不是我们的采访录音直接可以被转化成文字?”记者顿时兴致勃勃。
“现在还不行。”颜永红笑着说,“因为语音识别包括语言模型和声学模型,新闻语言可以建立语言模型,但口语却很难建立语言模型。”
在语音识别实验室里,视频精确搜索已不是问题。
在一段王楠比赛的视频中,你只要输入“侧身抢拉”、“前三板”等关键词,就可以找到精确到秒的视频。这就意味着,如果你想找一部电影里的精彩片段,只需记得其中的经典台词即可搜索。
两块牌子,连起创新链条
颜永红记得,语音实验室获得的第一笔项目经费来自科技部863项目2003年语音识别领域的比赛。“我们的识别率是最高的,获得了20万元的项目。”
如今,上千万的课题在这里已不是新闻。他领导的这个年轻的团队,已获得授权发明专利22项;软件著作权登记36项;有30余项发明专利正在审查中;在国内外各种学术会议和刊物上,已经发表了200多篇学术文章。
中科信利技术有限公司在业内也小有名气,人们将他看成颜永红的“著作”之一。
事实上,8年前,公司的成立仅仅是给科研人员“画了个饼”。
“科研人员不会成为富翁,但是至少应该体面地工作、体面地生活,所以,成立一个公司,让大家研发出来的技术有一个走出去的载体,这就是田静所长和我当时的想法。”颜永红说。于是,在只有100多万元启动资金的情况下,中科信利成立。
万事开头难。“公司前几年都没有收入,最困难的时候甚至濒临倒闭了。”说这话时,颜永红是微笑的,但笑容背后的艰辛是旁观者无法体会的,而他也不愿多言。
峰回路转,中科信利等到了第一次商机。其研发的产品嵌入式语音软件被应用在了手机上,这就是大家比较熟悉的语音拨号。
“有些人的手机里存了几百上千个电话号码,找起来很麻烦,安装这一软件后,只要对着手机叫出对方名字,即可调出他的资料。”颜永红介绍道。
这个嵌入式语音软件支持语音拨号、命令控制、来电短信提醒、语音读出短信、连呼数字拨号等功能。此外,他们还开发出基于分布式集群架构的语音处理平台TSE。
“在此之前,电信级语音识别引擎技术完全被美国公司垄断,但现在我们完全有底气说,我们占据了大半壁江山。”言至此,颜永红的语调高了很多。确实,在国内,真正能够将语音识别产品拿出来,放在电信网上规模使用的,也只有中科信利。
语音实验室承担着国家科研任务,中科信利公司开发语音技术产品,这两个牌子的作用互为配合,相得益彰。颜永红介绍说:“实用技术的推广应用,不是所有实验室的人员能够胜任的事情。在科技创新的整个链条上,我们分为概念产生、原理研究、原理性样机研制、产品化、市场推广,总共为五个阶段。语音实验室基本承担前三段,后两段则由中科信利技术有限公司完成。”
“十一五”期间的策略是由公司支持实验室,而“十二五”期间,需要大力发展公司。颜永红说:“下一步我们需要积极探索,怎样通过发展公司带来更多机会,打破实验室发展的瓶颈。”
共 2 页:
1
2
《科技日报》
相关阅读:
浅析我国面向移动互联网的终端产业发展
2010-05-26
3G,从行业应用突破
2010-05-24
海外运营商移动互联网发展方向
2010-05-13
从手机支付看RFID在物联网的切实应用
2010-05-05
开发者的梦工厂--移动应用程序
2010-04-26
热点专题:
移动增值
相关频道:
增值电信文摘