Pattek语音识别产品：找一条走得通的路_语音识别

Pattek语音识别产品：找一条走得通的路

2002/08/08

长期以来，我国很多基础性的技术研究都靠国家投资在支撑着。这些项目如何更快地走出实验室带来社会和经济效益将对其能否更快地发展具有重要意义。语音识别技术的研发面临着同样的问题，中科院自动化所在如何能更快地带来回报，获得社会资源的支持方面选择了一条捷径，其Pattek语音识别产品由此诞生……

当我们发现一条路因施工而很难走，甚至无法通行时，我们面临着两种选择：按原计划继续走，而不管前路是否通畅，或是退回去找一条能够绕过施工地段的路。这种选择对语音识别技术也同样存在。

艰难语音路

1997年9月，IBM在国内发布了一款语音识别产品——ViaVoice，这款产品的到来令整个计算机行业为之沸腾，厌倦了键盘输入的人们看到了一线希望。但是，5年时间过去了，我们几乎看不到有人用语音来输入文字，可以说，用语音听写的思路在过去这个时段的市场上败得一塌糊涂。

ViaVoice的每一步都吸引着每一个关注语音识别技术和产品的人的密切关注。它在市场上遭受的挫折同样引人注目。于是，有人便开始思考：语音识别技术在听写方面的应用是否已经成熟？语音识别技术的应用是否非得定位于听写应用？

从ViaVoice的字面意义看，这是一条“语音通道”，但IBM已经在这条语音通道里走了40年的时间，早在20世纪60年代初，IBM及其他一些力图在语音识别领域有所作为的大型企业就开始了语音识别技术的研究。40年的努力让计算机从“稀世珍宝”变成了普通百性的必备之物，却没有让语音识别技术走入人们的视野。于是，有人说：“语音识别技术从目前来看，食之无味，弃之可惜。”

“从目前的技术水平来看，语音识别技术要满足听写应用的需要的确还有困难，但语音识别技术的应用不仅仅在听写，其他一些方面的应用要求相对较低一些。因此，在某些领域的应用，语音识别技术已经可以实现具有应用价值的产品。”在语音识别领域工作了14年的徐波提出他的看法。

这种思路直接影响了中科院自动化所Pattek语音识别产品的出台。

今年6月底，中科院自动化所在北京发布了四款语音识别产品，这些产品的出台既是研发人员10多年努力的结晶，同时标志着国内语音技术发展完全依靠国家投资的状况将有所改变。

路漫漫其修远

1987年，中科院自动化所模式识别实验室在国家领导的关心下成立。其后，有关语音识别技术的研究工作随即展开。这与世界语音识别技术研究的发展进程相比已经晚了20多年。“刚刚成立时的语音识别技术研究项目组仅有3个成员，当时我们开展的研究主要在于针对特定人的单音节语音识别。”徐波在回忆那段研究工作时说，“我们都看不懂国外的论文资料，因为他们的研究早已转移到连续语音的识别上了（国外连续语音识别技术的研究工作在20世纪70年代就已经开始）。”从这个小小的细节，我们可以感受到技术研究的差距。

尽管如此，课仍需一节一节地补。语音识别项目组在1990年时建立了一个特定人的单字语音识别系统。当时就有企业想把这一系统产品化，但从事后的结果来看，市场上并没有看到相应的产品。这个时期的技术离产品化尚有相当长的距离。

补完了特定人、单音节语音识别的课，项目组迅速进入到了下一个阶段的研究工作中。1991年，项目组开始了连续语音的非特定人识别技术研究。这时，项目组与国际上的语音识别技术研究距离开始缩短。经过一年的努力，项目组拿出了一个小词表的连续语音特定人识别系统。这个系统拥有2000个语音识别词汇，它在一些特定领域的应用开始成为可能。他们将这一技术应用在了中关村公交路线的查询系统上。

从非连续语音到连续语音的研究面临着很多完全不同的技术难点，非连续语音的识别是一些孤立的声波片段，但连续语音则面临着如何切分声波的问题。诸如此类的新问题使连续语音识别率的提高比非连续语音更加困难。

另外，由于实际应用中的语音识别应该是面对非特定人的——作为一种语音识别产品，它可能面对各种各样的人。这些人可能来自北京、上海、广东、四川、新疆等全国各个角落，他们的口音存在着很大的差别，要很好地“听”懂这些有着巨大差别的语音，识别技术就必须相当地“聪明”。在ViaVoice产品中，IBM为其加入了“学习”功能来解决这一问题，即根椐具体使用者的口音对语音模板进行修正。但这种方式下使用者因为感冒或其他原因影响发音都将使识别率发生大幅度波动。

为了获得具有更强适应性的语音模板，自动化所通过合作的方式在全国各地建立了7个采样点，收集全国各地不同口音的样板，用于修正语音模板。这样的采集工作已经持续了10年之久。据徐波介绍，迄今为止，他们已经拥有了4000个人的语音样本，这些样本更加准确地反映了各地不同口音的发音特点。

随着研究的深入，工作的复杂度也逐渐提升。1995年，项目组拿出了一个非特定人的大词汇量语音识别系统。这一系统能处理4.6万以上的字词，但它是非连续的孤立词的识别。就像键盘输入一样，我们可以输入系统内含的单字或词语，但用户无法连续地整句输入。

有了以上一些研究工作的基础，项目组于1996年开始着手全力攻克集语音识别三大难点于一身的非特定人大词汇量连续语音识别。也就在这一工作展开一年后，IBM推出了ViaVoice产品。ViaVoice的推出不仅给研究组很大的震动，也让他们看到了语音识别技术真正推向市场，成为一种普及技术的曙光。

ViaVoice像有人在黎明前划亮的一根火柴，它让很多人以为是曙光已经来临，但这根火柴很快熄灭了。于是，有人开始悲观，但也有人发现真正的曙光正在东方显露出来。

期待曙光

“2000年的时候，我们非常圆满地解决了在大词汇量非特定人的连续语音识别中遇到的关键问题。我们在此基础上发表的论文在中文口语信息处理国际会议中荣获了一等奖，这一技术在同等条件下已经优于国外一些著名研究机构公开发表的准确率。”徐波对这一成果相当地满意。与此同时，他们的语音识别技术更多地把上下文相关等语义分析技术加入到了其中。正如我们听别人说话一样，我们听懂的不是字词，而是整句话的语义，以至于我们常常理解了语义却并不记得原话。因此，一句话中每个字词的识别与上下文密切相关。

虽然技术已经有了大幅度地突破，而且计算机的处理能力也已经今非昔比，但“真正实用的听写应用仍是个瓶颈”。徐波对语音识别技术的应用有他自己的看法。

听写应用不够成熟并不意味着语音识别技术的产品化就应该等待技术的成熟。徐波提出了目前可行的语音识别技术应用方向。“我们觉得目前的语音识别技术最主要的应用不在于PC上，而在移动通信设备和嵌入式产品中。”在这种思路的指导下，自动化所开始了技术的产品化尝试。他们在中文大词汇量、非特定人、连续语音识别技术的基础上开始了三个方向的产品化工作。PC应用、嵌入式应用、移动通信和网络应用。

但是，一直以技术研究为核心能力的研究所在面对市场时将面临很多的问题。毕竟，长期以来我国基础研究与市场化运作的严重脱节难以在短时间内得到连接。而即便是一项成熟的技术，它要在市场上获得成功也仍有很长的路需要走。因此，自动化所的语音识别技术想在市场上获得期望的效果就必然要有更广泛的社会力量的支持。

为此，自动化所一方面成立了下属公司，对比较成熟的技术进行市场化运作;另一方面，他们与国内外众多的企业开展了技术合作。通过与社会资源的联合，自动化所终于在6月底推出了基本成型的语音识别产品。正如自动化所所长谭铁牛在会议上所说的:“这是一件大事，中国人的声音必须由中国人掌握。”它不仅仅标志着自动化所在语音识别领域10多年的努力开始有了成果，更重要的是它趟出了一条从国家支持的技术研究项目走向市场的道路。

语音识别技术能够走出实验室，及时地进行产品化，其中很重要的一点在于如何把研究所的技术研究能力、企业的产品化和市场化能力结合起来。自动化所的尝试填补了研究与市场之间的鸿沟。

合作出产品

6月27日，众多的新闻媒体和IT业人士把北京大运村天鸿科园大酒店的鸿运厅挤得水泄不通。自动化所的四款语音识别产品在这里发布引起了广泛的关注。这四款产品包括三款语音识别SDK（软件开发包）和一款DSP语音识别板卡。这些产品都还不是可以直接拿到市场上卖的终端产品，但它将通过与大量的产品开发商合作最终实现这些产品的巨大价值。如DSP可以被电器厂商加入到它们的电器中，使电器能够接收主人用语言下的指令。

把它用在电视中，用户就可以直接告诉它开机、关机或切换频道。

三款SDK产品中，分别面向通信/网络、嵌入式系统和PC环境。它们可以让手机、掌上电脑、PC软件开发商轻易地在相应的设备中加入语音控制功能。

“2000年下半年，我们开始考虑语音识别的应用问题，最初的考虑是把语音识别技术做成SDK，通过许可证的方式让各软件开发商使用。”也就在这个时候，自动化所下属的北京中科模识科技有限公司（简称模识科技）成立了。“我们的想法是把一些可以在半年左右推向市场的技术通过模识科技的市场化运作，把它推出去。”徐波的想法很直接，也很务实。

此后，模识科技与市场上的其他企业也展开了一系列的合作，如针对具有语音识别能力的XML平台的开发，自动化所就与中文之星及Intel展开了全面的合作。它们三者中，模识科技负责语音识别引擎的开发，中文之星负责XML平台级的软件开发，而Intel负责架构的设计和应用市场的支持。这种合作为产品的顺利出台铺平了道路。

2001年，自动化所开始考虑开发一种独立于软件平台的硬件语音识别产品。它们通过与上海广电信息股份有限公司和粤TCL联合开发完成了语音遥控器。它将使人们可以用语音来控制家用电器。“下一步我们将把DSP板卡做成语音识别芯片，这样一方面可以降低成本，另一方面也将促进语音识别技术的大规模应用。”徐波的话音里透露出看到希望时的兴奋，“语音识别技术是一种基础性技术，它现在也是一种战略性技术。未来的各种随身设备都将允许人们用语音来控制和操作，它不仅仅是在PC的输入方法中一种‘锦上添花’的技术，而是不可或缺的技术。”徐波多次强调信息设备的多模态交互能力，在他的心目中，人们在使用设备时往往希望借助画面、声音、手写、键盘等多种方式，以便人们更方便地使用它。

对自动化所来说，这仅仅是一个开头，它的语音识别技术还有很多的应用领域，而这些领域的应用要求它更加广泛地开展合作。事实也正是如此，模识科技与更多企业在不同领域的合作也正在商洽之中。也许，这是一条走得通的路。

产品档案

Pattek语音识别产品

Pattek是今年6月底中科院自动化所推出的语音识别产品，它包括了Pattek ASR/C2.0、Pattek ASR/T2.0、Pattek ASR/P2.0和Pattek DSP/A1.3四款产品。其中Pattek ASR/C2.0是面向计算资源要求较为苛刻的嵌入式系统的SDK，Pattek ASR/T2.0是面向通信和网络应用的SDK，Pattek ASR/P2.0是面向PC平台的SDK，Pattek DSP/A1.3则是面向嵌入式环境的硬件语音识别板卡。

这些产品的特点在于识别率高，对环境噪声和口音有很强的适应能力。其中，面向嵌入式系统的Pattek ASR/C2.0对系统要求很低，它对内存资源的占用小于1MB，能运行于所有基于Windows CE操作系统的嵌入式产品中。Pattek ASR/T2.0可以支持多服务器和分布式语音识别应用，单个服务器CPU可以同时处理16路语音输入，它将主要应用于各种行业的呼叫中心，代替一些人工服务。面向PC环境的Pattek ASR/P2.0可以应用于基于PC的各种应用，如语音玩具、语音教学、语音多媒体信息查询等。Pattek DSP/A1.3可以独立地嵌入到不同设备和系统中，提供完整的嵌入式语音识别解决方案。

计算机世界(www.ccw.com.cn)