首页 > 新闻 > 专家观点 >

浪潮张东:“激活行业大数据 挑战与解决之道”

2014-05-22 10:48:24   作者:   来源:环球网科技   评论:0  点击:


  第二点不容乐观,我们认为这是对大数据的一个共享和挖掘来讲 ,不太好的特点。 就是在这些行业里面,这些数据往往是具有很强的独立性,你想让它共享,其实存在了很多的障碍。大家可能都知道这些数据把它分享出来,综合处理一下可能是有好处的,但是,由于种种的原因,可能有管理制度上的,也可能有这些人的动机或者说没有这个动力去做事情的原因,数据共享的比例是非常低的。我们现在看到的一些数字,当然可能是低于10%,甚至有的地方数据共享率更低,而且这种现象不仅仅是在一些我刚才讲到的偏政府一类的行业存在,甚至在我们很多的企业内部也同样存在,比如说财务数据和人力的数据有可能就是没有办法共享,也不是没有办法共享,或者说他现在压根就没有共享在一起,当然这里面存在种种问题。

  其中有一个很重要的问题,就是因为这些数据的所有者往往是不同的,因为所有者的不同,其实你也很难把这些数据留在一起。你要解决所有者的一些顾虑,比如说放在一起了,我会不会泄密?放在一起了,会不会有一些别人不该看到的东西看到,或者篡改,它的安全性如何保证?

  第三个特点是我们认为大数据不同于以前的数据分析很大的一点 ,那就是它强调的是我们在行业间,甚至于包括我们在企业场合产生的一些数据,综合分析才叫大数据 。如果只是简单的把内部一个ERP里面,或者财务报表里面的财务数据拿出来跑一跑,这个可能在十年前、20年前很多人都能做到,根本谈不上是什么大数据。大数据一定要更多的来源,跨行业、跨领域的数据碰撞,才能真正称之为大数据。

  最后一个就是说在这些行业,数据最终的目的 。我们从前面讲行业云到后面讲行业大数据,都是讲数据最终一定是要为人服务的,所有的东西都要转化成数据服务才有意义,否则的话,这些东西你即使做了分析、做了挖掘,最后还是放在你的数据库里面,没有把结果跟大家分享,或者说没有为更多的人产生服务的话,那这个云的建设、大数据系统的建设可能意义就不是那么大了。

  但是,这样一个本来在内部的数据转化成一个服务,在这个过程中,这些数据本来不该公开的,或者说是如何防止它被外面的人篡改,我数据的可靠性、可用性怎么办,以及在这里面的一些服务质量问题怎么办,这些都是在行业大数据发展过程中一些不同于我们前面泛泛的讲到的,或者说它更鲜明的一些特征。

  数据处理周期中所遭遇的挑战

  这里面它面临哪些问题呢?首先,我们还是把大数据从一个数据的收集聚集起来开始,一直到最后,我们把它进行分析,进行决策,把它展现出来这样一个过程,包括采集、存储、分析、可视化,以及最终为决策来服务。在每一个阶段,实际上现在还有很多的问题,我们如果要想将大数据推广到更多的领域,能够让更多的行业用户,或者说传统的一些信息化用户用起来,那么我们必须要来解决这个问题。

  挑战1:数据收集/清洗/过滤

  第一个,就是在采集和汇总领域的问题。因为我们在这一两年里面顶着大数据的名头去找了很多用户,很多用户听说大数据很好,搞完预算以后,要搞大数据,他们也很热心。但是,你去看一看他的系统,首先第一个问题,数据在哪?很多人想做东西,实际上并没有他要做这个东西的数据,第一个问题就是数据的归集,可能很多数据产生了,但是对他来讲,他没有一个有效的办法把它归集到系统里面去。当然,这个归集可能是技术手段原因,也可能是一些管理上的原因。

  第二个,就算他归集来了一些数据,这些数据的来源也非常复杂,可能是自己产生的,比如说他自己去采集,用机器采集也好、用人去采集也好,也有的是从别人那拷过来的,然后你也没有办法去保证这些数据都是好的,或者说都很适合于来做他后期的业务。也就是说在这里面数据质量是个很大的问题,数据格式不统一也是个很大的问题。

  最后在一些政策或者管理制度上的限制,造成了很多数据没办法统一起来,我们后面可能会讲到一个例子,是国内一个很典型的部门,就是公安,大家都觉得它应该是一个部门,但后来发现里面是N多部门,里面所有的数据在原来都是互补连通的,这个现象不仅仅在这样一个行业,我们在很多行业都看到了这样的问题,上下级之间可能不通的,平级部门之间可能也是不通的。

  第一个要解决的问题就是怎么把这些东西归集起来,解决归集里面一些技术的手段,和我们怎么去做标准,怎么把它规范化的问题。

  挑战2:数据存储和管理

  第二个问题,这项数据归集起来了,就会遇到一个问题,就是存储和管理的问题。其实也有很多人说我有很好的采集手段,我有很多摄像头和传感器,但是这些东西传回来很困难,后台没那么大的存储能力,过两天就得重新把它滚一次。在这里面,随着数据规模的日益庞大,同时,数据类型也越来越复杂,可能有图片、视频,有能放到数据库里面的,有放不到数据库里面的,现在很多的那里保存了很多放到数据库里面的东西,放不到数据库的慢慢就被替换掉了,因为实在太大,放不下。

  还有就是在统一存储过程中的共享和隐私的问题,这个我们在不止一个用户那边都会跟我们提出一个要求。我们现在建了一个统一的大池子,以前的数据都放在我这儿,我现在要把数据放到他那去了,你怎么保证我放在他那的数据是安全的?你一定要给我上这个手段、那个手段,当然很多用户听到的都是传统的手段,比如说强制访问控制、要加密等等,但是在这里面,传统安全的一些手段,应该说这是在云计算模式产生之后大家一直在探讨的问题,而且也是一直没有非常好的答案的问题,也就是说我聚集起来以后,怎么防止用户之间互相渗透,第二怎么防止后台的管理员,这个我以前根本没有见过的人,我要去信任他。

分享到: 收藏

专题