右边是Data Warehouse,这是一个非常传统的结构化数据,今天我们面对的是结构化数据的量也大量提升。我们在大数据的时代也使数据量庞大增加,因此我们也有新的技术,像DB2,将有一些新技术会介绍,还有一些硬件的技术等等,大大提升的I/O的吞吐量,解决今天可能计算机CPU很快,但是I/O跟不上的状况。
同时,DataExplorer,我们抓取一些有用的信息寄存在数据仓库里,如何增加关联性。另外一个软件可以提供多个数据的挖掘,关联性的分析,从而提供一个很好的从大数据里抓取一些有用信息的过程。挖去了以后,我们希望把那些有用的信息进一步提升,从而提供一个很好的服务。在这里我们可以透过IBM的一些软件,向计算应用提供一些KPI,把用户的应用结合你抓取出来的信息,提供一个用户的平台。
又或者您也可以使用IBM的Cognos,一个报表分析的数据,从多个数据库里,不管是结构化、非结构化数据里,我们抓取一些有用的信息,变成一个有效的报表提供给你做分析用。又或者我们希望再进一步往前走,做一个预测,因为报表很多是一些历史数据,我们怎么可以往前推测呢?透过IBM的SPSS软件,我们可以建立一个数学模型,建完模以后可以按照我们收集完数据的特征,可以推测未来一段时间的发展。推测也是大数据发展的特色,这里举了一个例子,在互联网信息里,其中一个信息用得最多的就是气象的预测,这是新一代高性能计算系统,IBM有幸为中国气象局进行新一代系统的扩展,他们采用了PureData,它们是一个非常庞大的PureSystem使用的客户,搭建了超过18000个CPU内核的环境,比之前一代系统提高了50倍的性能,提高了100倍的储存容量,可以想象它的容量非常庞大。为什么需要这么大的数据来预测呢?在气象预报的过程里,他们往往分为几个类型的数据,一个是气候模型的预测,推测下一个冬天是冷冬还是暖冬。二是短期的预报,这一类型主要利用物理模型推测未来气候的变化等等,这个模型里也结合了更多的,随着新一代技术会结合更多的传感器收集的信息,做一个整合的推测,除了大气的状况,也收集海洋状况、陆地山脉地理信息等等做一个统一的信息。最后一个类型是卫星的推测,就是临近的天气预报,如何预知未来一两个小时会不会下暴雨,这没有办法通过数学模型推算,这需要透过卫星的数据很快的进行分析,那种技术怎么样帮助卫星的信息量是非常庞大的,我们可以提供一个很高的容量,很大的计算能力,提供了一个把卫星信息整合起来,可以帮助推算。在这个客户里我们也做了一个测试,把他们的传统应用搬到Hadoop体系架构开放中心的平台上跑,传统友商的平台可能跑了几天卫星信息的整合,我们只用了几分钟就可以做完,这是一个测试的场景,我们已经在这个客户里成功试过,接下来他们还会继续往下看。
可以看到新一代大数据,第一步要收集很多有关联性的信息。像气象,会收集很多卫星、地理信息等等。第二步当我们收集了这么多信息之后,要怎么样分析?要知道分析数据是可以无止境的,今天做了很多分析,分析完的结果,又发现有一些新信息来源进来,你可以再进行分析,到底我们分析是为了什么?在这里IBM认为,分析是希望增强对客户360度全方位的视图,我们希望透过分析,找到一些跟客户有关联性的内容。一些传统行业来讲,像医疗行业,传统是用流程来进行梳理的,今天采用了我们360度视图的分析,可以把病人的履历,过往的历史,对药物有什么敏感,进行过什么治疗,家族有什么病,都可以抓取进来,这是一种非常好的处理方法。