首页 > 新闻 > 国内 >

语音识别：谷歌眼镜们的五指山

2013-02-22 15:12:16 作者：张春晖来源：36氪评论：0 　点击：

　　2月21日，马克·扎克伯格在参加“生命科学突破奖”基金会发布仪式上第一次尝试了谷歌眼镜。据在场记者说，他看上去对这款谷歌产品非常感兴趣，还说Facebook已有几位工程师等着在为这款产品做开发了。据说，他问谷歌创始人谢尔盖·布林，“怎么能戴上去不显得尴尬？怎么能不破坏跟别人的眼光接触而用这个眼镜？”无从得知布林当时做何回答。连一向将谷歌视做最大竞争对手的扎克伯格，都愿意为谷歌眼镜率先做开发，这个产品前景太值得想象了。

　　是的，太具有想像力了，扎克伯格可以用同样的话去问苹果和三星：你们的手机怎么能握上去不显得象块石头？他可以去问Kindle：你们的电子阅读器能不能卷起来塞屁股口袋里？

　　无论是手机、平板、眼镜、手表，产品设计的追求总是无止境的，但基于工艺的限制，在某个时代那个产品就只能在某一个尺寸标准下下功夫而无法突破，业内的朋友形容这就象如来佛的五指山，只要芯片还是那么大，你想做得小都不现实，例如苹果手表，例如谷歌眼镜。

　　实际上，真正的如来佛的五指山，是人机互动体验，我无数次在想，苹果手表真的需要那么大的屏幕吗？它非得通过一个手指的触控才能操控吗？谷歌眼镜戴起来能更能再囧点么？我们想想，如果说手表还能用触控来解决体验，那谷歌眼镜最好的操控体验是什么？摇头晃脑？上下其手？

　　对众多电子产品而言，又要追求越做越小，越做越薄，又要追求更好的操控体验，如来佛的五指山又变大了，突破口，只能等待语音识别！目前中国最好的语音识别效果最好的当仁不让是讯飞，连微信新增的语音提醒体验用的都是讯飞的，或者说他们自己的语音团队揉入了讯飞的技术。全球语音技术做得最好的当然就是Nuance了，从军事到Siri，它全干了。

　　很多人乐此不彼的在玩Siri，在玩讯飞语音输入，并且觉得还不错，甚至觉得非常好。实话讲，是挺好的，只不过如果要说能放到谷歌眼镜上去，那还差十万八千里呢，这十万八千里，就是“可信识别技术”。

　　一种技术，无论用的是什么算法，无论是中国人还是以色列人还是美国写的，都无所谓，特别是对于普罗大众而言，我们哪懂啥算法是啥啊？我们需要的，就是在任何自然环境下，人类自然的讲话，这包括无论是在房间，还是马路边，还是酒吧里，在各种环境下，只要人与人之间能听得见，听得懂，手表们眼镜们就要听得懂。以及象小孩子一样去学习。三个月前你和家里的小孩子讲话你还觉得挺累的，因为他牛头不对马嘴，词不成词，句不成句，三个月后你突然发现他词藻丰富起来，话语节奏以及条理一下子很清楚，开始有逻辑性。这才是真正的“实用”与“自然体验”，所以，手表真的不再需要什么触控，因为一个手指头的触控本来也谈不上什么好体验。所以，眼镜真的不需要摇头晃脑或上下其手，本来镜框也装不下那么多的东西。

　　“可信识别技术”所面对的还不仅仅是语音识别这一个领域，而是几乎整个数字世界，就象中国传统文化周易中的“八卦”，世间万物，一个“八卦”全部解释清楚。Nuance、google、讯飞们能做到吗？难，太难了，他们的技术框架同出一宗，都来自于“马尔可夫模型理论”，这三十年以来全世界的语音研究几乎都在同这个理论下做文章，可理论模型这东西就象一栋大楼的设计，图纸设计好是30层，你盖好之后，是不可能改成100层的，如果你想改就得重新设计图纸重新盖，而上述的这些公司，现在已经在28层了。如果不是这几年的“云计算”所带来的海量语料，那可能还在盖十几层呢。

　　我们现在需要耐心等待就是这个数字世界的“八卦”，全世界无数的科学家这三十年来为语音识别技术而奋斗，可能是明天，可能是十年…时间不是问题，因为人类需要一种象空气一样的技术，你感觉不到它，而你却每时每刻的依赖着它！

相关热词搜索：语音识别谷歌眼镜

上一篇:湖北联通客服呼叫中心持续领跑

下一篇:研祥工业服务器在安防视频监控行业应用