首页 > 新闻 > 专家观点 >

如何抢滩智能语音字号 打造人机智能语音交互时代

2014-06-18 09:46:14   作者:   来源:中国计算机报   评论:0  点击:


  磨一根针 破一片天

  “做语音是需要慢慢熬的。”这句话记者不止听一个被采访人说过。

  1989年从清华大学毕业任职紫光推进OCR(图像扫描识别),中间赴美,2000年与中国科学院声学所研究员吕士楠共同创办捷通华声的张连毅称自己是语音乃至整个智能交互行业的老兵。在他看来,从“入口说”、“门槛说”到“血统说”再到“技术说”,这两年来的语音热其实更多是一种炒作,而这种炒作对行业本身未必有多大好处。“我只认可"技术说"。因为语音只是交互的方式之一,智能语音就是一门技术,它与应用结合,这项技术就能创造出巨大价值。而这门技术的特点是厚积薄发,需要慢慢积累,所以这就决定智能语音产业是要用一根针刺破天的专业领域,而不是用一个铁锤砸出一片声势的产业,必须专注、专业,精耕细作,深耕久酿。”

  而所谓的积累,在云知声CEO黄伟看来,就是算法、数据和团队经验的积累。他告诉记者,作为创业型公司,“云知声的优势不在于数据积累,而在于算法。从云知声成立第一天起,我们就用了比对手少一个数量级的数据来训练算法模型,最终达到甚至超越对手产品性能,这个过程我们也积累了丰富而宝贵的团队经验。而现在开放的语音云平台已经让我们有了很多用户数据,我们的数据短板已经得到了弥补。”

  黄伟毕业于中国科学技术大学,后加入摩托罗拉并带队研发出世界上首个手机声纹认证系统。国际金融危机期间,摩托罗拉将整个语音识别团队出售给Nuance。黄伟拒绝被Nuance收编,于2009年7月加入盛大网络旗下的创新院,2010年10月创建了语音分院,2013年年底正式出任公司CEO。黄伟告诉记者,在技术方面云知声先后四次升级语音识别内核,目前识别准确率达96.26%,技术领先,并且可提供中、英、粤多语言识别;在商业化方面,云知声单月签约额突破千万元,合作伙伴超过3200家,云知声智能语音已广泛应用在移动互联网、智能家电、车载、可穿戴设备、呼叫中心、教育、医疗等领域。

  无独有偶,科大讯飞副总裁江涛也同样是语音界的老人。毕业于中国科技大学自动化与计算机专业的他是科大讯飞的元老,作为科大讯飞创业团队成员,一直在从事语音技术在通信和互联网方向的应用推广。在江涛看来,语音技术和其他技术一样,都在沿技术成熟曲线不断发展。几年前苹果Siri带动语音走进向上发展阶段,那时整个产业被看好,很多资本投入进来至一个高潮,而现在是高潮过后走入技术成熟曲线下行阶段,很多人开始悲观,资本撤离,只有坚持下来的公司能做成。他判断,带语音走入下一波上行曲线的动力很可能是可穿戴设备、智能家居、智能汽车等。

  江涛向记者回忆,在上世纪90年代,当时公认语音做得最好是南北二“王”,南“王”就是中国科技大学的王仁华老师,他也是科大讯飞第一任董事长,也是他支持科大讯飞现任董事长刘庆峰创业的;北“王”指的就是清华大学的王作英老师,语音识别和语音合成做得都很不错。在江涛看来,语音成为人机交互的主要信息入口这是大势所趋,毋庸置疑,只是语音真正价值的实现还有赖于技术的成熟和应用的普及。应用的普及需要慢慢来,引导、教育市场,培养人们的使用习惯要一点点推进,但要全面推广、普及还是需要过程的。“几年前要是有人在电梯里对着自己手机喃喃自语大家都会觉得奇怪,不知道这人干嘛呢,但现在因为微信的普及,这种行为习惯已经被接受认可。”

  而对于技术的成熟,江涛同样认为是需要专注投入、不断积累的。江涛向记者介绍目前的语音识别技术现状,他以环境从嘈杂到安静的程度为横轴,以人说话的清晰程度为纵轴,划分四个象限。在第一象限,也就是环境也安静、人说话也清楚的情况下,目前各家语音厂商技术实力差距不大,语音识别率都很高。在第二象限,也就是环境嘈杂、网络不好的情况下,目前科大讯飞做得很不错。噪音大、网络信号时断时续非常影响语音识别效果。“车载语音识别最大的对手就是噪音。2013年8月,奔驰在全球对云技术提供商进行选型发布的报告中分别按不同时速(每小时60、100、140公里)测噪,科大讯飞是唯一在100公里时速上识别率超过90%的厂商。”江涛自豪地介绍。在第三象限,也就是环境不错、人发音不太配合(最典型的各种口音)的情况下,看的就是对语言种类,尤其是方言的支持程度。云知声实现对粤语、英语的识别支持。科大讯飞除了实现对粤语、英语的识别支持,2014年以来陆续支持对河南话、四川话、东北话等方言的识别。江涛透露今年还会陆续支持湖南话、山东话、武汉话、合肥话、闽南话的方言识别。除了口音之外,语速、讲话模式等也会对语音识别带来不同挑战,比如演讲与开会的语音识别的识别算法和模型都不一样。“今年年底科大讯飞将推出一个产品实现普通话开会过程中,将语音转变为文字,识别率很高。”江涛透露。而在第四象限,即环境又不好、发音又不好的情况是世界性的难题,很难有谁能攻克。



分享到: 收藏

专题