EMC为你解析大数据来源及实际应用趋势

来源:pconline  
2012/4/24 10:59:48
和云计算一样热门的大数据一词,其产生原因是什么,大数据应用,未来在个人日常生活中的实际作用又是如何,前几日,EMC内部几位高管在EMCGreenplumChorus发布会上,对大数据的这一领域,发表了自己的看法,同时还对EMC中国大数据市场战略做了大体介绍,Chorus的产品经理讲述了Chorus的开发历程及主要特点。

本文关键字: EMC 大数据 大数据应用

云计算一样热门的大数据一词,其产生原因是什么,大数据应用,未来在个人日常生活中的实际作用又是如何,前几日,EMC内部几位高管在EMCGreenplumChorus发布会上,对大数据的这一领域,发表了自己的看法,同时还对EMC中国大数据市场战略做了大体介绍,Chorus的产品经理讲述了Chorus的开发历程及主要特点。

李映谈大数据应用对个人生活的改变

EMC全球副总裁兼中国卓越研发集团总经理,李映博士介绍到,EMC中国卓越研发集团有超过一千名工程师,北京、上海、成都都有卓越研发集团的分布,在沈阳和无锡有两个研发技术解决方案中心。所以在过去五年,EMC的发展是非常迅速也是非常惊人的。

李映在谈及大数据时分析道,在过去的一年中,尤其是大数据成为业内一个大家的共识,中国研发集团很大一部分增长也是来自于大数据和大数据方面的研发。例如,在2010年EMC收购了Greenplum,但是2011年8、9月份,Greenplum在美国第一个全球研发团队就在卓越研发集团在北京开始正式启动,在短短一年半的时间内,整个卓越研发集团在做大数据相关的技术研究、产品研发、测试以及市场推广的团队,加在一起已经有超过一百名研发工程师在为大数据和大数据相关的工作努力工作。

对于本次EMC正式宣布的Chorus产品意义,首先,Chorus产品是中国卓越研发集团主导的第一款产品,更重要的是,从开始的第一天,从最开始整个想法的产生,到市场需求的收集,到产品的基础研究,到后期的测试、开发,以及到中国和全球的市场推广,都是EMC中国团队主导和美国的Greenplum团队一起努力的结果。

对于大数据这一话题,李映认为,大数据和云计算三年前、四年前很相象,刚开始谈云计算的时候,不仅是客户,不仅是媒体,甚至做技术的人有时候都觉得云里雾里,但是短短三四年,云计算成为一个共识,是业内真正IT的革命,而且无论是私有云,无论是公有云,无论是混合云,都有切实的案例出现,帮助客户和用户带来实实在在的效应。未来五年中,大数据也会像云计算一样,真正成为给用户、给企业带来更多的价值,能够带来业务的更多的腾飞。

李映博士还举了一个案例,大概一个月前,有一次接他美国的老板,坐飞机过来,一般接机的时候最关心的是什么时候到,去早了在机场很无聊,可能要待两三个小时,去的太晚了,不好意思,老板已经先到了,是老板等你,你也觉得非常不好意思。所以掌握这个点是非常重要的一个事情。传统来讲,大家打个电话到首都机场,或者到网上查一查航空公司最新的数据,飞机什么时候到,可能都以这个点为准。

事实上,除了打电话外,一些大数据的应用能带来更为精确的时间,不仅仅能够根据航空公司现在公布的实时的时间,还能够根据当前的天气情况、机场的繁忙情况以及这个航班历史数据,给出你一个更准确、更合适的飞机到达的时间。

那次李映在接老板就出现这个问题,他一查首都机场的时间,说飞机要晚一个小时到,一查这些大数据的应用,说一个小时之前到,李映当时决定还是相信大数据,所以到了机场,结果最后的结果也是确确实实我老板是根据大数据应用推测的时间那个点到达的机场。

当时李映在微博上跟很多朋友也分享这个案例,马上就有很多微博粉丝跟我留言,说他在吹牛,在中国怎么能拿到机场的最新的数据,怎么能够了解得到这个机场的航班的历史数据,李映就回答说,第一种是吹牛,第二,这也是大数据未来作为厂商、作为企业、作为用户大家一起努力的方向,怎么能够让大数据真正落地,真正能够帮助我们成为未来,对每个人的生活、对整个社会能够产生长足的影响的新的技术和新的方向。>>

大数据产生原因及EMC定位、相关产品

EMC中国区的总经理和全球的副总裁蔡汉辉,负责EMC中国区的业务,从1995年就来到中国,一直到现在,之前在几家公司工作过。蔡汉辉则是剖析了对大数据这一概念的产生原因。
 
蔡汉辉提到,IT现在已经到了后PC时代,平板电脑、上网本、智能手机等等,不单单改变了个人日常的生活,还有工作的方式,它也对整个全球数据量的变化带来很重要的影响。

例如,Google每天有10亿条查询,而且所有这些查询都是在全球同时进行的。Facebook每天有超过2.5亿张新的照片在传发。Twitter每天有2.9亿条微博,再加上转发和回复,这些等等等等,都是为什么现在的数据量会产生海量的变化。

除了数据量爆增以外,数据的来源其实也是多元化的,日常接触到的数据已经不是传统的数据源,一些数字等等,而是它包括了很多叫“非结构化的数据”。连航班航线也可以成为一个数据。地球的物理信息、基因组的信息、影视媒体信息等等,都是比较典型的非结构化的数据。

在最近的一个名为“创建数字宇宙模型”的调研里面,IDC指出,作为一个个人,每个人每天生活里接触很多数据,很简单,像拍照片,通过ATM取钱,从Mp3下载音乐,写微博、写博客、发电子邮件等等,其实所有这些数据我们日常接触到的,达到整个数字宇宙的大概10%左右。所以大家可以看到,其实现在的数据量是多么的大。

实际上IDC也指出,在未来十年里面全球数据将会爆炸性的增长,增长44倍,从原来0.9ZB增加到35.2ZB,数据增长量是非常强大的。所有这些数据里面,达到90%的数据是非结构化数据,就是我刚才提到的不是传统的数字等等的数据。

现如今是信息经济年代,在信息经济年代里谁能掌握好、掌握透信息,谁就是赢家。所以大部分的企业也好,政府部门也好,都想怎么样有效的能够取得利用和分析海量的数据,还有怎么样利用这些数据去增加竞争能力,从政府部门来讲,可能是商业化,怎么样提高给市民、给社会服务的质量和响应力。这些都涉及到一个大数据的话题。

蔡汉辉说道,EMC作为全球领先的信息技术架构,信息和解决方案的提供商,在大数据的使命是要引领客户和合作伙伴成功的走上大数据之路,要帮助他们用大数据之旅加速业务的转型,这是EMC的使命。

而对于EMC的定位,蔡汉辉认为EMC有能力提供最好的在大数据方面的解决方案,会使用户从数据源获得最大的价值,增强他们业务的灵活性,提高他们业务的效率。

另外,EMC的大数据解决方案是构架在一个弹性的横向扩展的存储平台上,会运行特定设计的分析工具,设计可用于结构化、非结构化的数据,在生产环境和业务流程平台上面提供可以付诸实战的洞察力。>>

EMC大数据的市场策略三个阶段

蔡汉辉将EMC大数据的市场策略分成三个阶段。第一个阶段是先要建构一个云基础架构。

为什么首先需要有一个云基础架构呢?这是因为大数据的两个特点,从数据方面,第一是海量,第二是90%是非结构性的,所以要成功的进行大数据,也需要首先有大数据方面的存储。

也就是说,传统的无论是存储方法还是管理方法都会出现瓶颈,EMC能够为客户提供解决方案,为客户提供的产品有几个。有海量数据和非结构性数据,EMC的Isilon产品也是通过在过去几年前并购的产品,这个产品可以提供无限的横向的扩展能力,因为今天的数据量爆发性的增长,谁能够很有效的预测究竟这个数据量在未来的时间内会是怎么样增长的情况,所以我们要提供非常具有灵活性的扩展的环境,恰恰EMCIsilon就有这个能力,无限的横向扩展,这是其中的一个产品。

现在全球Isilon的用户很多,已经有超过差不多两千。在中国现在Isilon的企业级用户已经超过80个,较大的两个,华大基因就是用Isilon来分析基因的数据信息,他们的量达到超过7PB。还有一个是浙江省的图书馆,数量也超过1PB。

EMC的另外一个产品是Atmos。Atmos也是EMC在大数据方面提供的存储的解决方案,它跟刚才的Isilon不一样,比如分布式的大数据的做法,Atmos是很好的解决方案,很多在提供内容的、提供服务的供应,Atmos对他们来讲是非常有帮助的。

在一个多月前,中国三个电信运营商之一,就采用了EMC的Atmos,建他们的公共云的平台,给他们的客户提供公有云的服务。它为什么会选择我们的Atmos,其中有几个重要的原因,第一是性价比很好,它比较简单,用户只需要点击三次,就可以实现存储。另外,Atmos还有一个特点,它拥有一个很好的API界面,可以帮助他们很快的开发应用,所以最后Atmos产品击败了很多参与投标的对手,成为电信运营商选购的产品。

Isilon和Atmos都是提供存储的平台。当然有了数据以后,就需要有效的分析能力,才能通过这些数据的分析让不论是企业也好,政府单位也好,取得更加深的洞察力。

在数据分析方面EMC提供的解决方案、提供的产品是Greenplum,Greenplum有两个产品,第一是GreenplumDatabase,GreenplumDatabase是大规模的并行成立的数据库,它可以管理、存储、分析PB级量的一些结构性数据,它下载的速度非常高,最高可以达到每小时10TB,速度非常惊人。这是EMC可以提供给企业、政府,用来分析海量的数据。但是GreenplumDatabase面对的是结构化数据。很多数据超过90%是非结构化数据,EMC有另外一个产品是GreenplumHD,GreenplumHD可以把非结构化的数据或者是半结构化的数据转换成结构化数据,然后让GreenplumDatabase去处理。

这两个产品加起来就能够提供给无论是商业的还是政府的用户,去分析他们存储下来的海量的数据。另外,还有企业级的Hadoop解决方案。

大数据的市场策略,第一阶段是建构一个云基础架构,给海量PB级规模的数据、实时的、多源的数据提供存储的环境、分析的环境。第二阶段是跟协作有关系,第二个阶段是怎么样提供协作的环境、怎么样提供自助服务的环境,蔡汉辉说道EMC也将这个阶段称为社交化的阶段。

大数据这个概念的出现,也出现了一个新的角色,这个角色我们称它为“数据科学家”,数据科学家是负责分析和解释无论是在企业里面、在政府部门里面所有这些数据的。但是我们要为这些数据科学家提供什么样的环境,来帮助他们更有效的工作呢?我们需要把这些数据科学家跟IT、跟业务部门之间的界限打破,需要给他们提供一个灵活的环境、标准的环境,让他们去共同分享信息。这个环境关键是需要能够让这些数据科学家能够灵活分析这些数据。

大数据战略的第三个阶段是要提供一个敏捷的环境。需要考虑的是怎么样能够有效的支持大数据的应用程序,从而可以在实际决策方面得到进步,怎么样可以掌握好数据为经济时代提供帮助。EMC是具有预测分析能力的企业,以应用程序为重点。要提供打包的应用,成本比较低,同时灵活性比较小,比较局限,需要一个非常精确的模型才能取得成功。

另外的一个选择是定制的应用,定制的应用是按照用户的需求去定制的,但是它的缺点是这个做法慢,而且昂贵、难度也非常大。如果我们能够给这些用户提供一个以应用为重点,能够通过应用让他们具有预测分析能力的企业,这是我们的目标,就是通过我们刚才说的敏捷开发的方法,既针对客户的需求,也避免了由于定制化应用产生出来的一些不足的地方。简单的说,就是敏捷的开发的方法是基于迭代的、渐进式的软件开发模式,在开发过程中需求和解决方案都在逐步演进。这就是大数据之旅的第三个阶段。

在这方面EMC提供怎样的解决方案呢?刚刚在3月下旬EMC收购了一个公司叫做PivotalLabs,这个公司是旧金山的公司,就是在敏捷开发方面提供服务跟软件的。底下都是一些有名的公司,他们都是PivotalLabs的客户,比如Salesforce.com、Twitter等等。

总的来讲,EMC希望通过刚才这三个阶段建立一个云的基础架构平台。第二,提供一个协作的环境,社交化。第三,应用的敏捷化。EMC希望通过这三个阶段来帮助我们所有的用户成功的走向大数据之旅,让他们都成为具有商业预测能力的企业。

谈及未来EMC在中国的发展的发展规划,蔡汉辉指出,EMC看到在中国大数据的机遇很多,实际上从08、09年开始,EMC引入了Isilon、引入了Greenplum,到2011年,EMC的业务的增长大概是10倍左右,平均每年都是3倍的增长。未来三年EMC的目标,每年翻一番,其实单谈到2012年,相对去年EMC在大数据方面刚才提到的产品、服务,目标也是去年的3倍,所以今年EMC达成2012年的目标,都不只翻了一番。

蔡汉辉还对大数据业务的战略举措提到了几个重点,有几点。第一,EMC还会依赖目前其核心的市场销售和咨询顾问团队,加强行业的覆盖。无论是云计算也好,大数据也好,都是EMC其中的一个重点。第二,EMC会利用在中国的3000多个渠道的合作伙伴,会重点培养一些来帮助完成我们大数据在中国的市场策略,比如有一些大家很熟悉的,神州数码、怡德、易通等等。第三,在中国EMC有一个立足本土的研发团队,就是李博士的团队,GreenplumChorus产品主要是在中国研发的,这个产品不但是支持中国本土的市场,还支持全球的市场。有那么强大的研发团队在中国,这对于EMC去开拓大数据业务、开拓大数据市场是非常有帮助的。

共2页: 上一页1 [2]
责编:杨雪姣
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918