语音识别领域的VC投资机会_语音应用

语音识别领域的VC投资机会

周春兵 2009/06/23

一、行业简单描述

　　语音是人类沟通和获取信息最自然便捷的方式。自上世纪6、70年代作为残障人士的辅助型技术产生，到今天已逐渐在各类实用领域崭露头角并发挥独特效能的一项高科技，语音识别技术在业界正得到越来越广泛的认可并予以密切的关注。在信息化时代，人们对信息获取和信息沟通方式提出了更加智能的要求，轻松便捷地解决一切日常问题成为业界争相寻求突破的着眼点。而语音识别技术以其得天独厚的优势越来越多地进入到人们日常生活和工作的方方面面：让电脑、手机、玩具等各种机器设备能听懂主人的命令，提供更为人性化的操作方式；在电话里对自动语音发出指令即能解决问题；用语音软件进行文字输入等等。在人们享受日益丰富的语音技术应用所带来的便利性、人性化和个性化的同时，语音技术广阔的产业化前景正越来越清晰地展现在世人眼前。毋庸置疑，其可预见的应用市场和潜在的无限商机正同时吸引着具有远大目光的技术提供商和资本运营商。

　　语音识别技术根据识别对象的不同分为声纹识别技术和语意识别技术。

　　声纹识别：是根据语音波形中反映说话人生理和行为特征的语音参数自动识别说话人身份的一门技术。声纹识别的作用主要有两个方面：一是说话人辨认(Speaker Identification)，主要用于判断某一语音材料是由若干发音者中哪一人所说，属于“多选一”的识别；二是说话人确认(Speaker Verification)，主要用于确认某一语音材料是否由指定的某个人所说的，属于“一对一”识别。声纹识别赖以实现的基础是蕴含于语音信号中的说话人发音特征，这一技术强调说话人的个性，而不考虑以语音为物质外壳的话语意义。从本质上说，声纹识别技术属于“生物因子”认证范畴。声纹同指纹有着类似的属性。每个人的指纹都是唯一的，而声纹也是人的个性特征，很难找到两个声纹完全相同的人。

　　语意识别：是对语音材料所承载的实际意义的识别。它有别于声纹识别，声纹识别主要着眼于语音的物理属性和生理属性，以辨认或确认说话人为目的；而语意识别则着眼于语音的社会属性，以识别语音信号所承载的话语内容为目的。语意识别比声纹识别要困难得多。说话人的语音通常会受到母语、方言、发音器官和发音状态等诸多因素的影响，正是因为说话人语音特征各异，才为声纹识别提供了可能性。但是，要将具有个性的声纹与具有共性的语法和语义模型相匹配，要通过词语切分、词性标注、结构分析和语境理解等程序，达到正确识别话语内容，则是一个相当复杂的处理过程。

二、语音识别市场分析

　语音识别技术是生物识别技术的一种，自上世纪6、70年代语音识别技术的产生，到如今该技术已日渐完善，并逐步走出实验室在各领域进入实际应用阶段。语音比起其他交互方式有着更多独特的优势，在生物识别领域，它以其静态(声纹)和动态(语意)的双重属性具有其他生物特征无可比拟的广阔应用前景，因而在许多发达国家已被广泛接受和使用。而在中国，语音技术的应用起步较晚，以至于有些在国外已经十分常见的语音产品在国内看来仍十分新鲜甚至令人不可思议。众所周知，市场空白并不意味着零市场，相反，尚未被唤醒的市场需求经过信息流动和共享后有可能得到“井喷”式的爆发增长。

　　语音识别技术根据其属性，基本功能可归为两大类，一类是根据人本身的声纹特征来进行身份认证，另一类是根据人发出特定的语音指令来进行命令控制。由此引出的应用市场基本可以包括这几个方面：桌面应用、嵌入式应用、电话系统、Web应用以及特殊应用领域等。

1. 桌面应用

　　即语音识别技术集成在PC机上的应用，不仅可以用语音识别来进行身份认证和编辑文本，而且可以通过听取和响应用户讲述的命令来运行程序并与操作系统实现交互。但是跨国IT巨头如微软、IBM等已介入该领域，且可以充分利用其成熟产品的协同性来进行市场渗透，如Windows XP、Vista及Office 2007等都内嵌了语音识别功能，具有垄断优势。

2. 嵌入式应用

　　嵌入式应用的范畴很广，需要根据市场需求考虑不同的嵌入式硬件平台，如手持或移动通讯设备及家用电器的语音控制和内容输入。从目前的市场来看，嵌入式语音识别系统最大的市场主要是针对玩具、手机、车载GPS、MP3/MP4等。

3. 电话系统应用

　　语音识别技术应用于企业自动语音服务，可以为企业提供一种智能化的并且相对安全的自动服务方式。主要包括，企业的用户服务中心（Call-Center），电话银行，股票交易，电子商务等应用领域，用户可以在电话中进行身份认证及菜单流程的快捷选择。

4．Web应用

　　Web应用是把语音技术与Web应用结合，例如语音浏览器、语音搜索引擎、网上语音聊天室及语音网游等。

5. 行业特殊应用领域

　　语音识别技术可以为有关部门提供应用方案，帮助它们通过电话采集的语音进行自动的身份辨认，节省大量的人力，并大大提高工作效率和识别的成功率。

三、已开始处于商用化的市场

1、特殊行业市场

　　指国家安全、侦破等特殊领域，由于该市场专业性强，进入壁垒非常高，同业竞争者非常少。

2、民用市场

　　手机市场：中国近两年在通讯业发展迅猛，工业和信息化部2009年1季度发布的统计显示，截至2月底，全国手机用户已逼近6.6亿，这意味着国内平均每2人就拥有1部手机。手机行业日趋成熟，而愈演愈烈的同质化竞争必然促使商家在手机所提供的附加价值上翻花样、做文章，以此来提高身价。随着功能越来越强大的智能手机走红市场，语音识别技术更有了发展的空间。研究表明，智能手机市场将在今后的数年里继续保持增长势头，全球出货量将从去年的1460万部增长到2009年的1.25亿部，2009年全球智能手机将增长至占全球手机市场的16％，而据预测中国智能手机2010年销售量将达5190万台。按此数据，以语音识别技术开发包应用平均收入为7元/台计算，相关市场规模可达3.5亿元/年。

　　车载导航市场：在国内市场当中，截止到2006年，中国汽车数量已经超过3300万辆，其中10万元以下轿车占40%，10至30万元之间的轿车占40%，30万元以上的轿车大约占20%，但是车载GPS的安装率却仅为2％，远远低于日本59％、韩国40％、欧美25％的水平。根据计世资讯（CCW Research）最新研究报告《2007-2008年中国汽车电子市场发展趋势研究报告》研究表明, 2007－2008年中国汽车GPS导航系统市场年增长率将超过80%。在不考虑车辆市场中每年新增量的前提下，以此潜在市场规模预测，GPS市场普及达到三者的平均水平41.3％，其中约70％的加装语音识别人机交互系统。按此数据，以嵌入式语音识别芯片平均收入为40元/套计算，相关市场规模可达3.8亿元。

　　MP3/MP4：中国的MP3/MP4市场已趋成熟，整体产销的增长量也逐渐下滑，但是语音识别技术在此领域的渗透率却微乎其微，仍有很大的增长空间。据赛迪顾问预计，2009年中国MP3/MP4播放机市场销售量将达到596.7万台，同比增长4.9%，到2011年MP3/MP4播放机市场销售量将达到650.2万台，2009-2011年中国MP3/MP4播放机市场销量年均复合增长率达到4.6%。以此为计算依据。按此数据，以语音识别技术开发包应用平均收入为7元/台计算，相关市场规模可达0.46亿元/年。

　　玩具市场：中国是世界重要的玩具生产及出口地，75%的世界玩具产量均来自国内，仅2006年，玩具生产的产值便达到770亿元，出口达到70.55亿美元。中国有13亿人口，自身又是玩具消费的大市场，据有关部门预测，到2010年中国的玩具消费额有望超过千亿元人民币。近来智能玩具发展势头看好，每年以40%左右的速度递增，估计未来几年间将占到整个玩具市场1/5左右的市场份额，这是一个数百亿产值的市场，语音识别智能玩具即便只占这个市场份额的1/3，每年也会有数十亿到上百亿的产值。由于玩具本身的生产成本较低，附加值不高，因此语音识别智能芯片将至少占到其中一半甚至3/4的市值。

　　行业应用市场：除了以上个人消费品市场以外，利用我们的核心软件，生产出语音平台销售给二次开发商，最终产品可以进入电信、银行、网络等客户，具有不可估量的扩展市场容量。

四、行业主要品牌

国际品牌

　　Nuance：世界上最大的专业的语音识别软件提供商，提供语音识别、语言理解和声纹鉴定等一系列软件，其产品被应用于旅行预定、股票交易和企业门户等众多领域。公司在世界各地都设有分部或者合作伙伴，亚太总部设在香港，中国大陆地区的代理商为科大讯飞公司。Nuance的具体产品包括语音识别引擎，声纹鉴定软件，TTS引擎，SpeechObject组件（用于VXML以增强其功能），语音浏览器等等。

　　IBM：IBM公司在语音识别领域有很长的研究历史，其著名的产品是ViaVoice。如今，IBM公司在这个领域中的努力主要体现在Voice Server及其SDK上，该服务器建立在VXML基础上以帮助开发商建立广泛的电话语音应用。由于拥有多元化的产业和雄厚的资金实力，它作为语音识别市场的先驱，通过花费大量资金培育市场，让人们知道了什么是语音识别技术。

　　Microsoft:微软作为世界上最大的软件提供商，一直视语音识别技术为其优先研究项目，也适时地推出过许多产品，近年推出的Windows Vista系统已经内嵌了语音控制软件。微软强大的品牌效应、庞大的研究机构、优秀的市场整合能力使得它成为业界强有力的竞争对手。

　　国内品牌有科大讯飞（以语音合成技术为主，当初的战略投资者获得了数十倍的回报）等少数几家。

五、项目公司的优势：

　项目公司是国内专业从事语音识别技术研究、软件开发和销售的高科技公司。经过多年的努力，公司发明了拥有完全自主知识产权的语音识别核心技术，并以此内核为基础，由公司的技术团队开发出专用的声纹识别系统、语音关键词识别系统和语音搜索引擎，将语音识别技术推广到市场的同时，也获得了市场的认可，在该专用领域占领了相当的市场份额。公司自成立以来，一直致力于从事声纹识别技术及产品的研究、开发和销售，利用其在身份识别上独有的特性，深耕挖掘其使用价值。公司的声纹识别技术现包括ATD声纹识别技术和TI声纹识别技术。开集区间技术实用化测试，以行业标准相等错误率(EER指标)测试出其结果为0.6%，识别性能超过了指纹识别技术的识别水平，成为业内唯一一家实现利用声纹识别技术作为身份识别的唯一依据，而非辅助依据的公司。公司正准备启动下一步的发展计划，在已有产品的基础之上，利用在语意识别技术上的新突破，开发针对于各种移动设备的语音识别软件开发包、可进行二次开发的软件工具包，以及通用型的语音识别芯片，将语音识别技术与具有更广泛市场基础的领域相结合。

项目公司技术优势与特色：

仿生性——模拟人对语音和说话人的听辨功能，而不是使用统计的方法。

可学习性——与人相类似，识别能力和准确性随着样本量的增加而提高。

实时性——对瞬间语音信号的感知，而不是对固定长度的语音信号进行处理。

强鲁棒性〔robustness〕——在充分训练的情况下，识别能力具有极强的稳定性和可靠性。

识别速度快——识别过程是一种快速的并行过程，实际上是一种输入到输出的映射，不需要在一个庞大的语音库中进行搜索。

强分辨能力——神经网络的非线性映射，比概率方法有更强的分辨能力；平均识别分辨度已接近或超过人耳分辨度。

开集识别——建立在高识别分辨度及无关性训练基础上。

博锐管理在线