捷通华声

捷通华声灵云打造基础科研及智能应用双翼

2014-03-20 10:26:37   作者:曹建菊   来源:企业网D1Net    评论:0 点击:



  灵云平台:超强机身

  目前,智能语音交互仍然是最重要的人机交互手段,但正如同人和人的沟通一样,并不只是依靠语言,文字书写、图像、情感表达也都是交流的组成部分。

  所以,要实现真正意义上的简单自然的交流,必须要依靠各种人机交互技术,结合各种复杂的场景,实现随时、随地、随场景的交流与沟通。

  为达到上述愿景,捷通华声于2011年12月08日打造出灵云平台。灵云平台是国内首个全方位智能人机交互(HCI)技术开放平台。

  灵云不仅仅局限于语音云服务等某一项单一的HCI技术,而是一种可以用语音、手写、拍照,手势甚至是未来脑波识别等智能手段来操作、感知手机、计算机等数字设备的网络云服务。

  目前,灵云以“云+端”的方式,为用户提供语音合成、语音识别、手写识别、光学字符识别、自然语言理解等智能人机交互技术服务,其目标就是力求让人机交互与人与人的沟通一样简单自然。

  由此可见,灵云平台本身已超越了大家所熟知的手写识别、语音识别等领域,而是期望从更宽广的角度、更完整的视野去诠释人机交互的各种场景,并最终实现各种应用。

  灵云起飞:需平衡短板

  任何企业的成功,必然离不开天时、地利、人和等因素。灵云平台生逢其时,愿景很美好,捷通华声打造的灵云平台设计初衷也非常美好,但其自身实力是否能真正承载这一设计?

  灵云平台作为全方位智能人机交互技术开放平台,综合了语音合成、语音识别、手写识别、光学字符识别、自然语言理解等各项HCI技术,捷通华声在这些领域的技术积累情况如何呢?是否真正做好了准备?

  首先看手写识别、光学字符识别技术,这两方面的技术积累已然成熟,捷通华声对此有多年的应用案例积累,在此不做过多的阐述。

  重点从语音技术说起,目前国内将语音技术分为语音合成与语音识别两个方面。语音合成技术在中国已有十多年历史,应用范围很广,包括各种播报、导航等应用较多。目前中国市场几乎由捷通华声、科大讯飞两家公司控制,两家公司的市场份额相当。

  而语音识别技术,由于技术门槛更高,语音应用的范围更广,市场潜力巨大,所以吸引了很多国际国内很多厂商的关注。

  国际知名的语音识别公司Nuance、Google、微软起步甚早,国内科大讯飞依靠科技大学的科研力量,以及在资本市场上获得的研发资金支持,在中国语音识别领域俨然是快人一步。与此同时,中科信利、得意音通等传统新秀语音企业,再加上百度、搜狗、腾讯等由于自身业务需求应用,也在通过资本收购或者自主研发进军语音识别市场。

  语音识别市场这样的竞争格局,显然对捷通华声并不是特别有利,而捷通华声倾力打造的HCI灵云平台,如果语音识别这样的重磅的技术不能取得领先,那无异于等同于缺少了左膀右臂。

  张连毅推动捷通华声通过与清华大学的战略合作,将语音识别技术的短板迅速拉升。“清华大学的语音识别基础研究已经帮助捷通华声在半年内将语音识别技术提高到国内最高水平。过去清华大学语音研究力量也一直处在产业幕后的地位,这次合作,我们将清华科技推向前台,向产业界充分展现清华大学在语音技术领域的绝对实力!”张连毅如是说。

  而自然语言理解技术,相比语音识别技术更具挑战,自然语言理解技术应用目前已处于爆发前的起步期,应用灵云越来越广,捷通华声已经与清华大学几个国内顶尖自然语言理解技术实验室建立多领域的合作,并与捷通华声自身核心技术相结合,迅速推出了应用最领先技术自然语言理解技术的灵云智能客服系统。

  在新的HCI技术领域,如生物特征识别,一些技术已经成熟,一些技术如脑波识别技术,还处于实验室研究阶段,目前讨论还为时尚早,张连毅认为,要未雨绸缪,应充分考虑到各种可能,灵云平台将为生物特征识别技术预留接口。

  灵云翱翔:合作共赢

  在张连毅看来,合作伙伴至少有三个层次:

  一是客户合作伙伴:捷通华声永远都是客户辉煌背后的支持者,可以默默无闻,从不喧宾夺主。可以是嘀嘀打车背后的声音,也可以是“汉字英雄”背后的手写输入,还可以是导航的领路者。

  二是战略合作伙伴:无论是百度,还是清华大学,成为助捷通华声HCI灵云平台翱翔的双翼。百度语音识别与灵云语音合成完美结合,助力百度地图、百度导航掀起导航革命,同时让捷通华声语音技术应用得到落地;清华大学的基础科研研究,则为捷通华声构架起坚实的技术基础。

  三是渠道合作伙伴:捷通华声希望与各个领域的渠道合作伙伴共同开启HCI的跨世纪应用。捷通华声与导航犬的合作,全面应用了灵云语音识别、语音合成、语义理解、语音唤醒等功能。

  “只有依靠合作伙伴,才能让灵云平台腾飞。”张连毅强调。

  企业网D1Net总结:

  采访张连毅的过程,是对中国HCI产业重新认识与定义的过程,这个行业外表的风光与实际遇到的困境,可能只有身处其中的人才能真正理解。

  虽然智能语音等HCI领域风光无限,资本市场的逐利属性,让HCI似乎前景甚好,而实际上,据小编观察:如当今国内的语音产业,并没有非常成功的前端语音产品可以主宰市场。功能上的同质化、用户体验不足、语音识别准确率不高、实用化尚有距离等因素依然限制着HCI产业的发展。

  另一方面,相比较国外语音产业,中国语音产业规模尚小,政府支持范围有限,而且国内个别企业设置各种壁垒,甚至人为“垄断”,这些因素都限制了中国HCI的发展。

  正如张连毅所说:一花独放不是春,要鼓励百花齐放。这个百花齐放我相信不仅仅是指捷通华声灵云平台本身需要包罗各种技术,需要聚拢更多合作伙伴,我更期待HCI的各个上下游环节的所有伙伴,在以国家利益和产业整体发展利益为总体规划的前提下,各显所能,共同发展。就如马航的失联客机,不要因为人为的狭隘干预,让这架已经启航的飞机不知落于何处?

分享到: 收藏