首页 > 专题 > 文思海辉-乘数据之舟-达价值彼岸 > IBM大数据分享与业务洞察(苏州站)

IBM大数据分享与业务洞察(苏州站)
2014-12-08 14:31:41   评论:0 点击:

  随着中国金融市场的快速发展,互联网金融对传统金融行业的竞争,以及监管力度的不断加强,IT咨询服务公司对金融企业的商业智能方案也面临不断创新。如何提升金融机构在管理、盈利、风险控等多方位的能力?如何将国际经验更好的为中国市场服务?如何通过解决方案将海量数据转化为对经营决策有价值的信息之路?如何将客户智能分析成果行之有效地运用于服务渠道,并最终转换为销售业绩?为解决中国金融机构在发展中所面临的新问题,文思海辉在西安、苏州、北京、成都、深圳五地举办了6场“乘数据之舟,达价值彼岸”系列活动。

  在主题为“乘数据之舟,达价值彼岸”的文思海辉商业智能解决方案系列研讨会苏州站现场,IBM金融行业高级架构师徐礼佳分享了IBM大数据分享与业务洞察方面的技术与经验。



IBM金融行业高级架构师 徐礼佳

  以下为演讲实录:

  我是最后一场,是因为前面除了贾总讲的数据管控,我对他讲的数据管否比较佩服,数据管控很难做,他讲的非常清楚这些基本功,后面IBM作为文思海辉方面一个非常密切的合作伙伴,在前面除了讲数据管控这一块领域我们都有非常紧密的合作,数据仓库、数据集成、数据整合到风险数据集市。跟以往我们参加过这么多活动有一个非常大的不一样,上研时期所有求学时间都是在苏州度过的,所以我对苏州这个城市有非常深厚的感情。我们今天市场活动有两个非常关键的词,一个叫数据一个叫价值。我们作为数据工作者做了这么多年数据工作,我们一直在等待一个数据的春天的一个到来,也就是说我们做了这么多年的数据都是希望能够把数据的价值尽可能地让我们的各行各业能够呈现出来,所以今天我们市场活动主题叫“乘数据之舟、达价值彼岸”,我觉得这句话说的非常贴切,这个时间点再好不过了,因为在这个时候我们要用数据来说话,要用数据来看我们核心竞争能力的年代了。

  我们城商行和很多大行有很多不一样,第一个苏州银行尹总讲,苏州银行IT部门从去年60个涨到今年120个人,年复一年增长百分之一百,这个是令人非常镇静的。对于我们很多城商行来讲每天面对的还是运营的问题。运营的问题对于每一个管理层来讲问题就是我把有限的钱有限的时间和精力和我的人应该放到什么地方去,这个背后其实有大量的数据来支撑,来帮我们的决策层来做判断,现在一个大数据的时代,大数据对于很多城商行来讲,他问我们第一个问题是说,大数据对于我来讲是不是一件锦上添花的事情,对于很多银行来讲,我们每天把大力人力放在我们开发应用上,我先解决我有没有的问题,数据对于我来说是不是一个可有可无呢?刚才我们做风险的宋总已经给了一个很好的例子,我们在做所有应用规划的同时必须双管齐下抓数据工作,尤其对于大数据来讲一定是这样子。因为现在这个年代如果我们再开始做一些应用的话,我们不希望我们刚刚做完上线我们这个系统就被淘汰了,现在很多的我们发现尤其是城商行有一些重复的投资、浪费投资,其实都是由于这样的原因导致的。

  刚才文思数据挖掘小组王为阳小伙子也介绍了数据挖掘,数据挖掘在你业务方方面面是一个必备的工具和武器,很多时候我们业务人员签一个单,对公业务部门签一笔信贷合同的时候,他非常想知道我签合同之前究竟给银行带来多大的利润,它对我资本是怎么样占用情况,所有都需要有数据挖掘和分析的工具才能帮助我们判断。所以对于数据挖掘不是锦上添花的能力,它其实现在是我们很多业务部门所必须要具备的一个基本的能力。

  这个数据挖掘它从整个的方法论的角度上来讲,它跟我们传统数据挖掘有什么样的一些区别呢?在大数据时代之下,到底我们说的数据挖掘和我们传统有什么样一些分别?这个时候如果我们从方法论角度来讲,它第一个最主要的一个分别,也就是很多的书,包括大数据时代讲到一个最关键的分别,他说样本等于总体,这一点如果我们平时大家做统计分析的话,可能会体会比较深刻。我们平时在做比如说客户细分的时候,我们往往做的第一步是做一个抽样,因为我们根据我们个人的经验对我们的数据、客户群体做一定的抽样,在这个抽样基础上我们再做各种各样模型的开发。

  现在对于大数据来讲,它不再受机损能力的限制,所以它现在很多时候我们所谓的样本等于总体。这个是一个颠覆性革命性不一样,这个不一样对于我们所有工作者我们思考方式会带来一个本质上的变化。

  第二个是刚才前面的各位老总各位同事都已经讲到过,大数据它其实是涵盖了各种各样的数据,刚才我们也听的苏州银行尹总讲他们已经开始做这方面的尝试,我们也用一些网络的爬虫爬一些数据回来做一些数据方面的尝试,所以从我们简单的数据结构上来讲,大数据可以分析的数据范围非常的广,数据范围大家往往开始做的可能是这些半结构化的日志,网上的微博、微信的言论,我们每个人地理位置的信息,或者是我们跟第三方有一些数据层面上的交换,所有这些数据其实现在都可以纳入到大数据挖掘的这个范畴。大数据其实跟数据仓储还有一个很大的不一样,就是数据仓库里面其实存的数据是精子。所谓的精子,每一个自己都是我们银行花了大价钱买的设备、做的实施、做的整合,最后总结下来的数据,这些数据质量非常高,每一个字节的数据都有它一个很大的价值所在。对于大数据来讲,很多时候我们没开始做挖掘之前,我们不知道在这些低密度低价值数据当中我们可以得到一些什么,所以这个是一个很难的一个地方。为什么很多城商行会问我们,你们有没有总结一些大家通用的应用场景,别人都做了哪些大数据上的尝试,我可不可以做一模一样的事情,这个回答其实很难,因为它跟应用不一样,它跟建设CRM也不一样,像做一个CRM,它有一个比较成熟的流程,一个不能成熟的管理方法,比较成熟的一些界面,我们拿过来就可以了。但是大数据它所有的魅力所在就是我们一定要看到你的数据,要运用你数据驱动的方式找到数据中有什么样的价值。比如说当年建设银行考虑大数据的时候,北京分行和大数据时代的作者有一个面对面的交流,当时北京银行就问大数据时代的作者施恩伯格。说,施恩伯格先生我有很多的数据,我的数据到底有什么样的价值?施恩伯格说,作为建设银行北京分行,你是不是有北京地区所有二手房成交信贷合同的真实数据?建行说,对,我有这个数据。你有这个数据的话,你这个数据反映出房市的情况比任何一个中介或者挂牌价都要真实的数据,因为你是成交价,别人只是一个挂牌价,如果你用这部分的数据,像我们今天看淘宝经济指数一样,它可能会对其他的行业有很大的价值,这就是很多大数据之所以能创新一些新的商业模式的起点。比如说每一个城商行来讲,很多的城商行都有本地大量社保的数据,这点我们有很多挖掘的地方,只是平时这些数据往往都在沉睡,大家没有想到这些数据可以用来做什么。对于大数据来讲不单单分析了所有类型的数据,把很多我们过去没有想到如何去分析的一些数据把它尽可能把它唤醒。

  大数据跟传统BI有很大的区别,传统的BI很多时候还是停留在统计和报表层,我们更多是想看看我们过去历史上到底发生了什么,我们再慢慢过度到预测,预测这个客户什么时候会流失,预测这个客户有可能会买哪一样理财。但是大部分的时候我们的业务部门还是要求到我们IT的部门,说IT部门能不能帮我取一下数,帮我建一个模型,能不能帮我拉一张名单,明天客户定存到期了,这张客户名单怎么样,这还是一个非常漫长的过程。在业界来讲,大部分时候这个周期平均是四到六个礼拜。四到六个礼拜之后很多,因为当中会有很多轮的沟通,业务部门会告诉IT你的数不对,这不是我要的,我业务上不是这样理解的,有这样一个过程。对于大数据来讲有一个本质上的目的,他是希望能够把数据尽可能和工具一块推送给我们的前台的业务人员,能够让业务人员用一种简单、方便、易操作的方式来做所有这些数据工作。我们在工作当中其实常常碰到这样的一些业务人员,比如说零售银行部的营销人员,他们一听说要做模型他觉得这个东西非常的高深莫测,他们觉得自己都没有能力去学。但是很多时候他们的一些要求因为相对来讲从统计学角度来讲是非常容易的一些取数需求,我们对公客户对现金流分析有一别基本的要求,计算每一个对公流量的客户随着时间的变化你对现金需求的曲线,这条曲线如果你现在在任何一家银行要对你所有的对公客户,每一个客户画一条这样的线,我们的IT部门往往觉得困难,因为他的计算性能不够,这是在取数层面非常容易做的,很简单并不复杂。大数据根本的目的让每一个人都能用数据武装起来,也就是说我们每一个人在日常工作过程中学会怎么样用数据指导我的思维方式,而不是靠我们平时的经验积累。有的时候我们的经验跟我们的数据是反的,说的是不一样的。所以这个是大数据的一个根本目的。对大数据来讲我们业界有很多不同的理解,刚才副总监也讲了,大数据分广义的大数据和狭义的大数据,对于大数据来讲本质上的意思,所有的数据如果没有分析那么你的这些数据都只是垃圾数据。为什么在我们IBM体系里边我们把大数据跟分析放在一起讲的,是一个单词。也就是说数据跟分析是密不可分的,不是光有数据就可以了,我做了所有的数据工作,但是我的数据没用起来,也不是光有分析就可以了,我们常常见到很多的博士经常来讲分析各种模型的一个重要性,但是他往往忽略了一个数据的基础,如果你数据基础没有打的很牢靠的话,你分析你模型做出来的结果是错误的。所以这两者一定是相辅相成,哪一个环节都不可以或缺的。从技术角度上来讲,大数据分两大分支,前面各位总监也都有涉及,一个技术的分支就是我们现在非常热的Hadoop分支,另外一个是流计算的分支,流计算的分支开元技术诞生之前,IBM实验室911以后按照美国政府的要求就开始做流计算的一个研发,流计算根本目的解决数据分析时效性,如果我们现在所有做的数据分析是一定要把数据存到一个库,存到一个平台上,再开始做加工,但是对于流计算说不需要,它分析的时效性按照秒、毫秒级来的,所以这两个是很大的技术分支。但是他们有很大的一个共通性,因为他们都是建立在大规模集群这样的一个线性扩展平台基础之上,而且这两者都可以分析各种形态的各种类型的数据。所以这个是大数据的两种基本的一个分支。

  在这里面再简单回顾一下,大家通常会问的,如果我们的IT部门分成数据小组跟数据分析小组的话,我们数据分析小组如果是传统上做建模博士、硕士们,他们一定分的是,我现在在大数据上数据挖掘和传统仓储之上做的数据挖掘到底有哪些区别,这些区别我们在出各种各样的白皮书,总结下来大概有四点。第一点我们刚才讲的全样数据和采样数据的一个分别。采样这个过程在过去传播上我们有很多的统计学的博士、数学博士在各种的学术领域探讨如何采样,来提高采样的精确性。采样根本的问题同样是说你得知道数据的分布你才知道如何采样,而在另外一些业务场景之下,我们往往找到数据上不是满足它分布的那些异常的数据,这个时候你就没办法进行采样,因为采样会把这些异常数据给首先剔除掉,全样计算一定比采样计算来得好。但是好多少,准确率提升多少,对我们模型效率有什么样的变化,目前还没有一些数据来支撑。我们根据我们做的不同业务场景我们可以尝试比较一下,不是说在任何一个场景之下都不应该做采样,不是这样子。比如说做信用风险评分,所有信用风险评分维度和方法都是相对比较成熟的,我猜测这个时候全样跟采样没有太大的分别。可能在其他的一些业务场景下,采样跟样本会有很大的分别,这个我们需要用数据验证。

  第二个差别是说数据整合的这个工作量会大大缩小,这个怎么理解呢,如果我们在座大家都建过数据仓库的话我们知道,我们从原系统把数据抽取、转换到数据仓库的话,我们有一个完整的数据管控体系,我们有相应数据标准,我们要做ELT的一个设计数据模型设计,把数抽调数据仓库来。所以对于数据仓库来讲它整个建设周期把数提到仓库来,这已经是好几个月的事情,我们的数据才能被其他的业务部门生成报表等等等等。但是大数据它的做法不一样,因为它上面是没有模型的,它的数据可以直接按各种文件的方式加载过来,我们在上面用各种各样的分析工具先来搂一遍这个数据,你可以对它做查询,也可以对它各种各样,比如说SAAS来建模,建完模以后如果我们模型质量有问题,我们可以再做数据清洗的工作来决定,这样整个数据整合的工作量是大大减少。我们一般来讲,在我们做的这个项目当中,一般来讲你把大数据平台装上来,数据倒过来,基本上一两个礼拜以后有一个初步的分析结果提出来。如果大家用大数据平台作为一个分析这样的一个类似库这样的一个不是库的一个平台的话,它的效率比我们传统做法会有一个很大的提高。

  第三个叫数据驱动洞察。这个过程我们大家也已经有了很充分的一个讨论,我个人对这句话的体会是说,我们过去业务部门提一个命题的时候,他往往先带有自己的一个假设,根据这个假设要求我们IT部门提一些数,来建一下模型,我来验证一下我这种说法对不对。比如说今年上半年在某一家银行,他们的零售银行部给我提了一个命题,说我现在有十个客户分群,代法工资群、社保群,那些那些客户群一共十个客户群,你能不能把十个客户群的营销策略帮我设计一下。我反过来问他第一个问题是,你为什么把你的客户分为这十个群,你为什么认为给这十个客户群做营销策略能给银行下半年带来更多的盈利。他们零售银行部的老总也是一个博士,一拍脑袋说,他说这有可能是一个伪命题,我说对,这有可能是一个伪命题,因为我们没有用数据去看在这个银行什么样的客户是盈利或者有可能会盈利的,我们只是根据个人的经验把我们客户分成不同的特征,而我们抓住仅仅是客户某一个特征,而实际上我们在对客户分群的话,多个特征的一个组合而不仅仅是单个特征,所以数据驱动洞察的做法是,让我们先抛弃我们对这个事务本身的一些假定的一个认识。我们先来看看数据是不是告诉我同样的事情或者是另外一些想法,我再来看我怎么样采取相应的行动。所以它跟我们传统上业务部门提一个问题提一些假设再来验证,整个过程是不一样的。

  最后一条是说数据采集一开始,同时就开始溶解。这个是跟我们数据一个时效性密切相关的。前面各位老总也讲,我们很多数据仓库最少也是T+1,很多是T+1.5、T+2。所以你数据进来的时候你没办法对他做任何的分析和判断,直到第二天日结之后才能看到。对于很多业务场景之下其实我需要知道的是越快越好。比如说你做信用卡返期帐户,我当然希望这个交易进行过程当中,100毫秒之内我就想知道这笔交易是否有欺诈的可能性。当然我们现在传统做法,我会把欺诈的规则写成一个规则库,管它一百条两百条一千条规则,我尽可能抽样,抽一些规则抽一些交易来跑,但是这不是一个全面的做法。大数据时代既然技术上没有这样的一些局限,我们可不可以把这个时效性进一步提高。

  还有在一些场景之下的,我们业务部门其实非常想要知道的是一些准时时一些趋势性的数据统计。比如说营销部门做了一个市场活动,他其实很想知道做完这个市场活动一个小时之内到底有多少客户响应了这个活动,我这个策略是否需要改,需要准时时的数据,而不是第二天看到一个汇总的信息。

  现在有很多家银行已经有这样的一些行长仪表盘,行长的仪表盘就是行长关注的那十个指标,它是时时去刷,基本上准时时去刷,这样时效性对于我们决策有很大的帮助,我们知道很多事情当你尘埃落地之后再想做任何的改变都为时过晚了,所以我们能提高这个分析数据时效性的话这是非常值得去尝试的一个领域。

  刚才宋总讲多风险数据提示,在大数据时代我刚才讲前面一个片子有一些数据中心的同事问我,既然是大数据时代之下数据不需要整合,是不是全行所有数据上都不需要整合,直接扔到大数据平台上都可以去做呢?其实不是这样子的。这个像刚才宋总讲的,风险数据集市这个领域,我们有认为数据整合有很大的必要性,而且是必须要做整合的。为什么呢?就像宋总讲的,其实对风险数据提示来讲,如果没有这个东西它是传统的三种做法,要么各自建应用,应有下面再带各自的数据库,要么从数据仓库上衍生出来这样风险应用,要么单独建一个数据集市,对于这三种做法来讲,如果数据不整合的话,你要出一些风险的报表尤其是要满足新发协议这样的报表你的困难会非常的大,你会花大量的人力、时间、精力做手工并表的工作,所以我们强烈推荐第三种做法,你一定要有一个风险数据集市把你的数据整合起来。这个整合方式跟刚才大数据的方式是完全不一样的整合方式,这个整合方式之下你的风险数据集市会有一个非常完整的非常固定的一个数据模型,你在这之上会出满足所有巴塞尔2、巴塞尔3监管的报表,这个时候你还会有相应的一些管理的报表也可以从这个风险集市上出,所以这个数据整合有它的必要性,在特定的业务场景下有它一个很大的必要性。

  这个我就不详细讲这三种具体的一个做法。这个时候巴塞尔作为我们合作伙伴,他们实施了很多风险数据提示项目。从IBM设计的角度上来讲,我们也认为从风险的角度应该分成五个层次的整合,从数据的整合到应用的整合到你最后整个报表体系的整合,所以这个是另外一块完全独立的领域,跟大数据不一样的是,如果我们有相对固定的数据的一个需求,而且我们经常会有这样的一些监管需求,我们建议大家还是用传统的数据库、数据仓库一体机的技术来解决,大数据技术我们建议大家用新的一些更偏近于探索或者是数据挖掘的要求,我们可以进一步放在大数据上来做。大数据大数据,其实我们IT部门肯定做技术的人员会为这样一些新的技术心潮澎湃,但是对于我们业务部门来讲我们根本不管下面到底是数据库还是Hadoop他需要的是一个结果,很多时候我们大数据落地过程中非常非常困难,对于IT部门来讲我们到底做什么样的应用给到我们业务用户。这个应用的话从我个人经验上来讲,我觉得我们还是要做一些雪中送炭的项目而不是锦上添花的项目。什么叫雪中送炭的项目呢?其实我们跟业务部门接触的过程当中,发现很多很多业务部门其实他基本上在做业务的过程中很少用数据,大部分的时候都是凭自己个人的经验去做的。比如说我们银行里普遍实行的客户经理制,客户经理制一个客户经理往往要关到一百个到几百个客户,基本上我很少碰到客户经理他能够对一个客户所有的历史都讲的很清楚,这个客户在我这里买过什么产品,他发生过什么事情,最近有什么样的投诉,除非他抓的很紧的一些大客户他知道,大部分的客户他知道的都不完整。当这个客户经理流失的时候,新的客户经理面对老的客户的时候,他往往会造成一个流失的风险。

  因为老客户会认为新的客户经理对我一无所知,这些数据其实都在我们系统当中,但是我们很少把它按照客户经理要求抓出来。我们大部分的银行都有CRM系统,我们IBM也有我们的CRM系统,但是我们CRM系统每天干的最多一件事情就是客户经理往里面去录入,但是要问他什么时候用过CRM里面的数据帮你分析客户本身的需求,我相信大部分的CRM都没有这个功能,也就是说真正意义上的ACRM其实很少,而且做的都不好。这个其实在大数据时代是大家探索去做的最多的一个领域。我们在全球的调研之下,差不多55%到65%的客户做的第一个项目都是跟客户有关的,客户里边大数据里边做的第一件事情最简单的事情就是客户360度试图,这个试图在大数据平台不像过去我要做复杂的数据管理工作,把客户主数据管理起来我在这上面再做。大数据平台下它有它所有的工具,可以把你的客户按照各种特征把它匹配起来,不是说只有统一客户号才叫单一客户试图,你的客户如果说跟另外一个帐户满足任何的,你可以定哪一些条件的匹配他们都可以属于同一个客户,这个给到我们业务用户一个非常或的一个体验,就是你可以迅速知道你一个客户全面的情况,这个我相信对客户经理非常有用,这个其实对我个人的工作也非常有用,我曾经在我们的CRM系统里尝试做这样的一个工作,我搜索了一下中国银行,我想知道中国银行买过所有IBM产品、服务,以及最近我们双方所有交互的记录,但是我找不到,光中国银行这个客户我们在系统里差不多有二三十个客户,每个都是因为拼写上有一点点差别,它就变成一个新的客户,这个对于客户体验来讲非常的差,但是在大数据平台上来讲,从技术角度来讲是非常容易去做这件事情。第二个对我们IT部门来讲,我们自身的运营有很多可以去优化的地方。这个运营怎么理解呢,第一个我们运维部,最累的我认为就是运维部同事,我一听说谁当运维部老总,我都会跟他说祝你好运。忙的连喝水的时间都没有。为什么呢?

  因为这个系统总是会出问题,出问题以后运维部会承担很大的责任,运维部门他们告诉我,他们现在所有监控的一些工具都能实现一些比较复杂的端到端的监控功能,它的监控都是按照设备来的,监控服务器,监控网络等等一个一个来的,它说它很少能有一个应用能把这些都串在一起。我作为客户在网上登陆网银,我不能实现转账了,我接下来首先打给客服,为什么我们不能转账,我不知道它是什么意思,这个时候客服要把这个记录下来回馈给我们的IT部,IT部再回过去查各种各样的日志,这个时间周期非常长。我们最近和一家银行做的,我们用流计算技术把大批量各种系统的日志直接进到流计算平台,时时做日志与日志之间的关联判断当一个交易发鼓掌的时候究竟哪一个设备哪一个应用当时出了问题,这个时间上现在可以做到五分钟以内甚至是更少,所以我个人认为这个是一个非常非常大的对客户的一个体验上的一个提升。我常常会打电话给IT库存,说我今天又不能做一个什么操作,IT库存每一次给我们回答是,我知道你有这个问题,三天以后告诉你结果,三天以后我早就把我钱转到另外一家银行去了,我现在的客户我有这么多选择的情况下,我根本不会等你三天时间告诉我你为什么发生故障。这样的情况下对于我们运维部门可以充分考虑大数据平台可以给我们提高哪些效率上的提升。另外一条很大的一点管理这个风险。管理这个风险的话,刚才我们前面讲了很多关于风险数据集市,风险数据集市管理是我们已知风险类别,信用风险、操作风险、市场风险。互联网金融给我们带来很大的冲击,现在有很多P2P、P2B存在,但是这些风险在哪里呢,我们怎么样管控小微的风险。管控小微的风险,里面很难做的一条,第一我没办法让我客户经理对所有小微企业做一个尽责的调查,因为这个量太大,我客户经理相对两讲根本管不过来。第二种大家问的是说你有没有一个办法,用大数据的办法帮我找到很多行外的数据能够帮助我来综合判断一家小微企业的一个风险。这个现在业界大家在大数据领域做的探索非常的多,我们也在做一些相应的项目,怎么样去用更多的数据,用一个新的维度判断小微企业的风险或者我们看不到的风险,这一块做出来的话,相信对于未来几年市的格局有一个革命性的影响。

  最后一个是一个新的商业模式。这个新的商业模式我发现其实互联网企业走得很前,因为它本来上来就没有客户,它有的就是数据,所以从数据里实现了非常多的一个变现的能力,也就是说把它的数据变成各种各样的分析和指标,给到需要他用的。我们发现在国外很多的企业尤其是银行,说到底互联网企业掌握的数据跟我们银行还是不能比,我们银行还是掌握了大量真实客户和客户交易的数据,只不过我们用途上用的方面比互联网企业要慢一些。这方面国外有很多的企业,包括保险公司,都把它的客户和客户数据汇总之后,能够给到第三方,让第三方做他的一些用途。比如说保险公司把它的一些数据给到了医院和医疗行业,让他能够帮助医疗行业来判断一个客户什么时候有得病的风险。去年年底泰康跟咕咚网联合做了一个“活力计划”,泰康用户同意把咕咚手环的数据给到保险公司,保险公司会帮你来降低你的人寿保险的费用,这个是一个很好的业务创新。但是你想一想,一个手环现在可装戴设备它所掌握不远远是每一个人的心跳和走多少步,他掌握了很多信息,他知道我去过哪里,这些数据汇总到一起可以给各行各业提供非常多的商机。

  另外一条变现的能力我们发现现在是很多企业真正的一个核心竞争力,真正把数据变现的企业不着急讲在市场上做什么事情,因为他在闷声大发财呢。有人问过我,微软大数据帮助奥斯卡金像奖准确预测了24个奖里21项,这是很强的变现能力。IBM数据大平台有什么变现能力跟微软比。我当时的回答,这跟用剑一样,剑耍在谁的手里变现能力就掌握在谁的手里,而不是工具本身。你现在手里握一把宝剑,怎么样对它变现直接体现你对数据的一个使用能力。

  这些是我们现在在做一些相对微观的应用场景,这些应用场景我只是想给到大家一个抛砖引玉的作用,告诉大家我们用大数据做过什么可以做什么。这里面第一大类我们叫舆情类分析,舆情类分析会在网络上做一些爬虫,舆情类分析相对来讲比较成熟的一个模块,很多银行用它做产品品牌的分析,我行发了一张信用卡,这张信用卡跟苏州地区同样广发发的卡有什么特色,客户为什么喜欢广发的卡,可以做一些舆情比较,对市场部的同事非常有用。市场部现在每天都有很多位同事从各种论坛、网上去找,有的时候甚至需要找危机公关。舆情类分析大数据平台是完全自动化的过程,它可以帮助我们更加快速对相应一些事件做出反应,这个是第一大类。

  第二大类我们叫营销类分析,这个营销类分析刚才王为阳小伙子讲的所有数据挖掘的模型,只不过它在大数据平台上可以做的,第一个模型可以跑得更快,第二数据涵盖的范围更广,地对大量的历史做客户行为的分析,所以营销类的分析背后就是对客户的细分客户行为的分析等等做大量的分析,最后给营销部门做一些营销策略辅助的一个帮助。

  第三部分是我们刚才讲的业务转型。业务转型你怎么样把你的数据变现的一个能力,这个时候其实我们每一家银行我们仔细想一想你的数据跟你合并的这家银行一定有很大的不同,因为你吸引的一个客户跟他会有不同,所以你的数据你的客户里一定能挖掘出来跟他不一样的地方,这部分是我们仔细去想一想我到底能做什么样的一些业务某性,这一点尤其对于我们城商行非常重要的,对大行来讲,也许他的业务范围是大而广的,但是对于城商行我们要有我们业务特色,我们要占领市场上很特别很专的领域,这个时候专业领域落脚点在哪里,这个需要我们数据去帮忙的。

  第四大类是一个从业务的角度上来讲非常简单,但是对于我们业务部门来讲又非常需要的一类,叫查询类的分析。查询类的分析很多时候我们讲的是,我们现在有大量的历史数据,如果你把大量的历史数据两年以上的数据都放在数据仓库里查询,这个成本非常高。如果你要查一些日志的话根本上不可能。所以很多时候你可以考虑把你所有的历史数据、所有的详单,这一点在电信行业做的很多,他们把它放在大数据平台上,用做大量的查询,这个可以减轻IT部门工作量,你现在的数据是一种服务,通过服务方式给到业务部门,不是搭总线的服务,而是给他一个可视化的工具让他对数据进行操作。

  最后一条运维的优化、调查,这个刚刚我们讲过了。其实现在很多运维的工具,包括日志的分析,包括设备的安全管理等等,它下面的基础都是大数据的平台,我们运维部门如果你希望在工作中有时间喝一杯咖啡,你可以考虑一下如何用大数据平台做这个运维。

  后面的案例我不仔细讲了,都是我们做过的一些技术。

  最后我想讲的是给大家一些建议,我觉得现在我们来参加这个会的银行一定对数据非常重视的银行,我们有了文思海辉这样一个非常好的合作伙伴,基本上你也不用太多顾虑你在人才上的一个短缺,因为对文思海辉有各个事业部,每个事业部下都有非常专业的人才,不管是统计博士还是数据仓库的小组,所以我们考虑是同银行自身业务出发,你有什么样典型的一些应用场景,业务部门有哪些痛点我们可以用大数据平台或者是新的技术和方法来解决的,不要做一些纯粹是技术上的一些尝试,因为对于业务部门来讲他根本不关心我们用什么样的技术。

  第二个对于大数据来讲,很多时候技术本身还在发展过程当中,两年前我们说做海量历史数据查询和分析的时候,它的响应时间还是相对来讲是比较的不能跟OLTP系统来比,放在现在来讲的话,这一点完全能满足你的要求了。所以这个大家一定要考虑技术本身还再一个发展过程当中。

错误报告  分享到: