首页 > 新闻 > 国内 >

语音识别:谷歌眼镜们的五指山

2013-02-22 15:12:16   作者:张春晖    来源:36氪   评论:0  点击:



 

  2月21日,马克·扎克伯格在参加“生命科学突破奖”基金会发布仪式上第一次尝试了谷歌眼镜。据在场记者说,他看上去对这款谷歌产品非常感兴趣,还说Facebook已有几位工程师等着在为这款产品做开发了。据说,他问谷歌创始人谢尔盖·布林,“怎么能戴上去不显得尴尬?怎么能不破坏跟别人的眼光接触而用这个眼镜?”无从得知布林当时做何回答。连一向将谷歌视做最大竞争对手的扎克伯格,都愿意为谷歌眼镜率先做开发,这个产品前景太值得想象了。

  是的,太具有想像力了,扎克伯格可以用同样的话去问苹果和三星:你们的手机怎么能握上去不显得象块石头?他可以去问Kindle:你们的电子阅读器能不能卷起来塞屁股口袋里?

  无论是手机、平板、眼镜、手表,产品设计的追求总是无止境的,但基于工艺的限制,在某个时代那个产品就只能在某一个尺寸标准下下功夫而无法突破,业内的朋友形容这就象如来佛的五指山,只要芯片还是那么大,你想做得小都不现实,例如苹果手表,例如谷歌眼镜。

  实际上,真正的如来佛的五指山,是人机互动体验,我无数次在想,苹果手表真的需要那么大的屏幕吗?它非得通过一个手指的触控才能操控吗?谷歌眼镜戴起来能更能再囧点么?我们想想,如果说手表还能用触控来解决体验,那谷歌眼镜最好的操控体验是什么?摇头晃脑?上下其手?

  对众多电子产品而言,又要追求越做越小,越做越薄,又要追求更好的操控体验,如来佛的五指山又变大了,突破口,只能等待语音识别!目前中国最好的语音识别效果最好的当仁不让是讯飞,连微信新增的语音提醒体验用的都是讯飞的,或者说他们自己的语音团队揉入了讯飞的技术。全球语音技术做得最好的当然就是Nuance了,从军事到Siri,它全干了。

  很多人乐此不彼的在玩Siri,在玩讯飞语音输入,并且觉得还不错,甚至觉得非常好。实话讲,是挺好的,只不过如果要说能放到谷歌眼镜上去,那还差十万八千里呢,这十万八千里,就是“可信识别技术”。

  一种技术,无论用的是什么算法,无论是中国人还是以色列人还是美国写的,都无所谓,特别是对于普罗大众而言,我们哪懂啥算法是啥啊?我们需要的,就是在任何自然环境下,人类自然的讲话,这包括无论是在房间,还是马路边,还是酒吧里,在各种环境下,只要人与人之间能听得见,听得懂,手表们眼镜们就要听得懂。以及象小孩子一样去学习。三个月前你和家里的小孩子讲话你还觉得挺累的,因为他牛头不对马嘴,词不成词,句不成句,三个月后你突然发现他词藻丰富起来,话语节奏以及条理一下子很清楚,开始有逻辑性。这才是真正的“实用”与“自然体验”,所以,手表真的不再需要什么触控,因为一个手指头的触控本来也谈不上什么好体验。所以,眼镜真的不需要摇头晃脑或上下其手,本来镜框也装不下那么多的东西。

  “可信识别技术”所面对的还不仅仅是语音识别这一个领域,而是几乎整个数字世界,就象中国传统文化周易中的“八卦”,世间万物,一个“八卦”全部解释清楚。Nuance、google、讯飞们能做到吗?难,太难了,他们的技术框架同出一宗,都来自于“马尔可夫模型理论”,这三十年以来全世界的语音研究几乎都在同这个理论下做文章,可理论模型这东西就象一栋大楼的设计,图纸设计好是30层,你盖好之后,是不可能改成100层的,如果你想改就得重新设计图纸重新盖,而上述的这些公司,现在已经在28层了。如果不是这几年的“云计算”所带来的海量语料,那可能还在盖十几层呢。

  我们现在需要耐心等待就是这个数字世界的“八卦”,全世界无数的科学家这三十年来为语音识别技术而奋斗,可能是明天,可能是十年…时间不是问题,因为人类需要一种象空气一样的技术,你感觉不到它,而你却每时每刻的依赖着它!

 

分享到: 收藏

专题