EMC单勇:大数据时代的物流信息平台规划

来源:畅享网  
2012/5/24 15:31:14
今天我给大家分享的是EMC在大数据方面一些相关的解决方案是如何做延伸和挖掘。大家知道现在处在一个大数据时代,在大数据时代里面我们一个核心就是数据,数据作为我们每一个企业一个最核心的资产,我们不仅仅是要把它做存储下来,保护好,而且怎么样发掘,分析以及更好的运用。所以说今天我们会更多的是贯彻在一个数据存储方面,提供核心数据方面相关的方案。


本文关键字: EMC 单勇 大数据时代 物流

大家上午好。今天我给大家分享的是EMC在大数据方面一些相关的解决方案是如何做延伸和挖掘。大家知道现在处在一个大数据时代,在大数据时代里面我们一个核心就是数据,数据作为我们每一个企业一个最核心的资产,我们不仅仅是要把它做存储下来,保护好,而且怎么样发掘,分析以及更好的运用。所以说今天我们会更多的是贯彻在一个数据存储方面,提供核心数据方面相关的方案。

首先我介绍一下EMC公司,EMC公司去年的销售额是200亿美金,EMC公司是一个正处于快速增长期的一家公司,目前讲跟在座物流行业一样都是属于一个成长型的过程中。目前EMC在全球每一年增长额在20%到30%。现在全球我们接近5万名员工,市值接近600亿。在存储备份,信息安全,包括虚拟化等等方面都是业界的第一。

我们来看一下EMC从2003年开始,在2003年以前EMC是一个企业级存储的一家公司,专注在存储一些研发,产品销售。在2003年以后,EMC不断的做一些技术的革新和潮流的发展。每一次革新都有在存储业界的前面,比如说在2003年EMC收购了VMware这一家公司,当时的VMware只是一家年销售额只有一千万美金的,但是现在VMware已经成为整个虚拟化市场上无可争议的市场领导者。现在VMware三个公司已经超过500亿。在2003年以后因继续收购了IC,专注于信息安全更好的保护数据,为了防止泄密等等。接下来在2009年之前,EMC会在整个云计算之旅过程中会做全面的转型。你会发现EMC在收购RSA等几家公司都是发生在2009年和2010年前后。这个过程正是EMC从云计算到大数据这方面转型的过程,如果大家比较了解这几家公司的话就会发现EMC是一家专注于做大数据的公司,因为现在我们谈的数据已经不是以前的GB或者是TB,对这个数据的存储和管理必然会带来很多的挑战,很大的挑战就是存储。而TB正是针对我们的大数据可以有效的把握把这些重复的数据合并成一类,在实施调用的时候可以并发在一起,这是基于TB的解决方案。

在WMare正迎合了我们现在谈的分布式处理的一个数据库平台架构的核心团队,这在我们几年前要谈到像谷歌,像我们现在谈的淘宝,阿里巴巴,他们为什么把关于数据库的平台慢慢转向分布式部署,就是因为看到未来数据的发展和我们计算处理能力的提高,会带来单一的平台满足未来大数据增长的要求,所以提出这种分布式互动管理。而它正是基于这样的平台进行的。在业界是占领导地位的,而XtremIO呢,我们知道另外一个概念,它是针对文件系统的分布式处理,大家比较熟悉的是hadoop,这几年基于hadoop开源的结构分布式文件系统,分布式处理这样一个平台的架构,已经在很多行业如火如荼的开展了。而EMC收购的XtremIO,正是整合了分布式文件系统一个核心的产品。它可以集你一个文件系统来面对多个结点,几百个甚至是上千个结点的架构。

所以这样一步一步的来转型,使EMC可以一步一步步入前列,当然EMC在过去8年在研发上的投入也超过了一百亿美金,但是在企业的并购方面也投入140多亿美金。一方面是企业开发,一方面是我们的企业收购。而EMC在国内我们现在目前有20多家公司,有2500多员工,而且在国内我们会有三家研发中心。其中在上海第一家,目前在北京和成都还有另外两家,我们的研发中心不仅仅是针对中国市场,这是我们项目在全球6个最大研发中心之一,现在已经超过一千人的规模。在上海我们有两栋楼接近一千人。主要是做我们的存储研发基地,云计算的基地,包括信息制度,商务智能以及中国实验室,全球的技术中心和发展中心为客户提供服务。

我们现在来谈一下大数据,现在对我们这个时代现在数据量并不是用TB或PB来衡量,我们更多谈的是全球数据量已经超过1个ZB,一个ZB这个在数据的量上相当一百多万个PB,目前这个数据存量已经达到了一个ZB的存量。但是在未来8到10年,这个数据量还会增加的10倍。这个数据的产生和分析存储挖掘是我们现在很多企业面临的问题,不仅仅是物流行业。

我们在整个传统上大家会谈的比较多是我们结构化数据,比如说我们会基于很多的数据库,ERP等等,产生企业的核心应用,这些应用会带来的数据从我们的业务需求,产生我们的数据。这一部分数据我们需要去存储,存储问了以后我们需要对它做一些保护,这个保护方式有备份,有克隆,有镜像等等。这样数据库一份变成两份,三份,四份甚至是更多。在保护的基础上我们必须对它企业内部的业务做一些数据的分析。一些商务智能的分析,这些分析会抽取不同业务部的数据形成我自己的数据仓库。这时候我的数据又多了一份,而随着我信息商务智能分析的数量越来越多,我的数据量在这个里面会越来越累积。

完了之后我们发现很多数据的质量不是那么尽如人意,我们需要做一些数据的筛选,形成一些高质量的数据,针对高质量的数据做一些数据的挖掘。这些数据挖掘的过程除了提供一个企业的经营决策以外,还会挖掘出一些新的需求或者是针对这个行业发展需求内,我们会挖掘新的需求,这个新的需求反过来又推动了我新的数据产生,这是一个循环的过程。在这个过程里面会发现我们的数据量是不断的膨胀,当然这中间也会产生各种各样的需求。比如说结构化数据,非结构化数据是集中于文件,当然还有很多半结构化数据,这些数据混合的数据类型都是在我们企业内部不管是你私有云也好,公有云也好,混合云也好,都是我们未来整个架构平台的搭建。

所以说针对这些数据我们第一谈,在这个大数据的平台上我们首先叫大数据的存储,是要存放这些数据,而我们的大数据的存储和我们传统的存储又选了概念,就是传统的存储我可能一台存储设备放在这里,我可以扩展到一百块盘,两百块盘,三百块盘,1500盘我的性能也会相应的提升。但是,它满足不了我们未来大数据的增长,以及我并行处理得要求。所以大数据的平台下面我们需要做是一个横向扩展而且可以自动扩展的架构,这个自动扩展不仅仅是我的容量要增加。而且我的处理能力,我的性能,我的存储量,我的IO要随着我的容量增加并行的提升。

这是我们大数据一个很大的特点。另外我们现在谈论大数据至少是以TB级来谈,就是说我们企业未来可能管理的数据会达到TB级,接下来会往这个方向去发展。另外对这个数据的管理,存储,扩展性能各方面是有整个架构自动优化和管理的,不需要企业增加更多的管理人员参与。另外一个就是说我们现在把这个大数据存储下来了,我怎么去分析和应用它,这是我们下面要谈的基于企业一个数据分析的过程。

传统的我们的商务智能也好,数据仓库也好,BI各种方面,我们的分析主要是停留在相对比较简单或者是说比较一般化或者是大家有这种同质化的过程。现在需要更多是以配置化的,而且主动做一些市场决策类型的支撑这方面的应用。这需要我们更好的一个分布式的平台的支撑。

现在我们简单谈一下针对这几个方面我们在大数据的管理,分析,挖掘以及整个数据仓库下所进行的改变。首先我们看一下基于这种业务智能的分析我们谈到BI这方面,现在我们更多做的比较多是针对历史数据的汇总,回顾,然后做一些相应的报表。对一些实时性的数据我们可能实效性不够,另外对未来的预测或者是趋势的分析可能还没有做的很深入,当然这个原因有很多方面。一个方面是我的数据源不够重组或者是数据源的整理不够完善。另外,还有一个是跟企业内部的业务和业务之间的结合互联,包括数据的共享传输没有达成一个整体。我们把业务层面整合完以后我们就把所有应用之间的数据可以做一些调查,比如说我在分销系统或者是物流系统可以查到我物流的情况。我在下单的时候就可以实时的看到哪仓库的库存情况。我可以去实时调货,这在一些物流的用户之间可能比较明显,每到一些节假日或者是一些促销期,可能物流业的业务会激增,但是这时候资源普遍十分紧张,无论是人力还是车辆,或者是我的货物。这时候我们在下单的时候就可以实时的把订单下的量核实汇总,定位到每一个仓储。我们要针对每一个地区仓储条件的不同,下单量多少来及时做一些资源调配,满足用户的一个实时的体验。也就是说可以提高我快速的响应。

之前我们做到这么一个实时的分析和实时的结果是做不到的,或者是在数据量大的情况下是没有办法处理这么多并行的情况。而在现在通过大数据手段,新兴的智能工具,针对结构化,自动化数据的结合可以实现这么一个实时的调动。

除了这个实时的分析以及我们销售预测等等趋势分析,这些方面以外我们现在更多是针对我们数据仓库的建模或者是数据仓库的实现怎么把我的数据真正有效的数据抽取进来形成我实时分析的库。在这里面我是更多实现架构的可行性,比如说我工作分布式处理的架构,通过把结构化和非结构化的数据做一个完整的结合,把他们合成一个库形成它完善的查询。

另外在这个基础上我们实现架构的扩展,如果说我的数量不够增加货物端的数量,这样对于很多信息和物流企业会面临不同的业务信息,数据类型的一些挑战。把这些业务类型和数据类型的挑战整合到我所有资源池里面,这样对企业来讲是容易做出相应的决策。在数据仓库和整个智能分析,两方面结合情况下我们可以带来另外一个在这个完善基础上我们可以谈论数据的质量。在整个企业里面你谈到数据里面我相信有很大一部分数据它的准确性和价值是得不到保障的。我们怎么去从这么庞大的数据里面,筛选出真正对我们决策有核心价值的数据,这是我们接下来在这个平台基础要去完善的。

这部分数据在筛选出来以后我们又要通过相应的手段保证这些数据的价值和准确会因为我时间的推移,或者是业务的变更而下降。这样给我们的企业经营提供更准确,更有效的几率。

最后一方面在整个架构里面谈的是云计算,其实云计算和大数据他们没有一个先后或者是一个主次关系,他们是一个相辅相成关系。有了云计算会产生更多数据的交互,而大数据推动云计算往前的发展,云计算的好处使得我们可以在这个企业一个私有云也好,还是我们更加大的公有云平台上我们提供一个自助的数据分析服务,我们可以自动添加我们需要的模块和需要的资源以及我需要的存储空间和数据的加载过程。来实现我们整个架构的平台的管理。

下面我简单介绍一下案例,就是我在劲霸男装的案例,它是基于它的ERP分销,CRM,WMS,PLM等等有九大业务系统统一的企业私有品牌,这个企业自主品牌是在它整合了这九大业务系统的基础之上去实现的。也就是说它首先把这个应用之间的关联性以及它实时的交互性做到一个完美的结合。在这个基础说,使得这些数据可以在业务系统之间得到共享和交互。重要的交互就带来一个问题,就是我时间企业对它商务分析要求更高,比如之前我在ERP系统里面,我得到我相应的数据我没有办法很快的调用到我的仓储系统或者是我分销系统里面数据。而在他整个大的数据整体以后,各个业务模块可以查到我的仓储情况。所以说它很多明细的查询,要求就出来了,这些要求是以前没有的。

它没有把这个企业内部做集中、整合之前很多数据是没有办法提供的,所以说很多明细数据是没有办法查的,现在有了这个架构以后,这些就变为可能。然后用户开始考虑怎么去做,这方面有更深层次的客户,所以这是我们做的几部分,一部分是云平台的搭建,使得他现在在整个私有云的平台上,上线任何一个系统时间不会超过三天,最近他WMS系统上线用了大概两天的时间。原来需要购买9台服务器现在只是在云系统部署完成,而且是整个业务部门和IT部门一个电话沟通就可以实施了。

第二个是它业务切换时间,由原来十分钟现在缩短到十秒,几乎可以做到一个准时的业务切换,没有任何的物理故障,会及时的进行切换。它的管理成本和采购成本都降低了30%和50%。另外在他应用系统都放在EMC的分布存储上通过相应的手段比如说分层,技术,优化,扩展技术使得它的性能得到有效的提高。而且通过这些手段使得存储池是一个弹性的。

首先资源动态清楚,性能高清晰动态去增长,所以更好满足它的要求。另外通过基于重复数据删除这样的技术使得他的数据量在备份之后会缩减90%以上,就是说他这么大数据现在已经有十几倍数据现在就需要两个小时。

最后一个是我讲所有业务系统整合以后给他带来就是BI的压力重,他本来这一期项目里面没有考虑BI,做这个项目完成以后会发现BI的压力很大,需要搭建新的数据架构来实现我的业务分析。基本上上线以后,它的效率比原来提升了60倍到40倍,这是用户比较满意的。这是它一个架构我不仔细去谈了。

所以EMC在大数据的方案里面我们分了这样几个层次,从存储到应用,到分析,到提供,在每一个层面都有相应的解决方法,在存储方面我们有MirrorView、Database等等这些针对大数据的存储和管理的平台。在结构化和非结构化应用平台上我们实时的分析架构,比如Greenplum,它有结构化的产品和非结构化的产品。也就是说我可以用Greenplum一个平台来支撑我的数据库和文件系统结构化和非结构化整合在一个平台完成。再上升至XCB实现我基于应用的管理布局,替换。

下面我再花几分钟的时间介绍一下EMC业务联系性的方案,其实我们前面谈大数据带来一个问题就是大数据的保护,它其实保护我们有很多方式。数据保护,联系保护等等。而现在我们谈的是如果我的数据存储宕机或者是数据丢失使我的业务中断?EMC的回答是不需要的。在这个解决方案里面创建一个真正的不间断的应用平台,也就是说我们的物流行业订单也好,如果是停机的话对企业带来的损失是不可估量的,在这种情况下,我们业务连续性可以保证我们用户在主机,网络,存储任何一个部件出现故障的情况下业务中断,甚至说我整个机房全部瘫痪,我另外一个机房是可以实时接管的。它的实现是我们通过虚拟化的引擎把双模的数据中心完全打通,实现统一的数据中心,统一的资源调配,我任何一个数据都有备份,而且是实时同步的,对于服务器来讲或者是主机应用讲我组成它根本是透明的,但是我这个换到另外一份直接会到另外一个上面上,不需要任何的员工干预它会自动实现。现在这个解决方案有三个版本,一个是基于本地的,有基于异地的,两个数据中心之间的,比如说一百公里的,我们有一个新的研发基于双核式中心,还有更远距离的超过一百公里甚至是上千公里的,以及下一步,我们还有一个基于大的公有云的平台架构。

我们简单看一下行情,本地可以做业务的不间断的业务迁移,可以使得数据在存储之间实时的迁移而不需要中断。这些所有存储平台都有虚拟化来管理,这对用户来讲只需要一个系统管理链可以管理几台,几十台的存储平台。在方案另外一个版本里面可以支持到双性中心之间的架构,就是把本地的扩展到异地,两个通讯之间我可以做业务的不间断的迁移。同时还要提供业务,没有任何一个单独的,整个数据中心瘫痪他的业务会全部迁移到另外一个结点上。另外一个是跨结点的可移性。针对这种双模数据中心的解决方案,EMC目前在国内有几十个案例,比如说更新我们在青岛的政府云计算的项目里面,实施了青岛到下面郊县的,中间有150公里的双核的数据中心,上面运行都是虚拟化的平台,任何一个服务器的宕机我的虚拟机可以迁移到另外一个服务器上去。任何一个存储的瘫痪都可以把业务直接转移到另外一个结点上执行,它的数据永远都是双份甚至是多份的。

最后我总结一下EMC在云计算大数据的解决方案,他这里面分了两点,一个是企业应用一个是大数据应用,他们对应的存储平台是不同的,企业应用更多面临是VMware的存储的云平台,对大数据我们是有一个弹性的结构。而对数据的保护是通过我们一整套完整的备份恢复归档的解决方案帮助企业提供。这两者之间可以通过虚拟化引擎,通过信息安全管理,服务套件管理结合起来,在这个之上启动分布式数据分析平台提供大数据的分析和划分。当然我们在整个EMC产品线和解决方案不止这么多。

我就介绍到这里,谢谢大家。

 

责编:罗信
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918