|
大数据一体机不是应用落地充要条件如果有了大数据一体机,未必有大数据应用落地,这个是成立的。道理也很简单,大数据一体机只是一个平台,没有应用软件,所以只有一个平台,自然没有大数据应用落地的结果。 对于热炒的大数据应用,我主张不纠缠于概念,不纠缠于什么是大数据应用以及大数据应用价值和意义。我只关注,大数据应用究竟有哪些实际应用,大数据应用如何落地。 有很多厂商推出了大数据应用一体机,那么,买一台这样机器就可以解决大数据应用落地的问题吗?两者之间是一个什么关系呢?对此,又学习一下数学中的“充分条件”、“必要条件”和“冲要条件”。 充分条件:如果有事物情况A,则必然有事物情况B,简称充分条件。 必要条件:如果没有事物情况A,则必然没有事物情况B;如果有事物情况A而未必有事物情况B,A就是B的必要而不充分的条件,简称必要条件。 充分必要条件:如果有事物情况A,则必然有事物情况B;如果没有事物情况A,则必然没有事物情况B,A就是B的充分必要条件(简称:充要条件)。 简单地说,满足A,必然B;不满足A,必然不B,则A是B的充分必要条件。(A可以推导出B,且B也可以推导出A) 这东西很绕,但也很准确。在我看来,大数据一体机(A)只是大数据应用落地(B)的必要条件,而且这个必要条件还只是成立一半,也就是说,没有大数据一体机,则必然没有大数据应用落地,这个是不成立的;因为很简单,没有大数据一体机,用户可以自己搭一个平台,加上应用软件,同样可以实现大数据应用。 如果有了大数据一体机,未必有大数据应用落地,这个是成立的。道理也很简单,大数据一体机只是一个平台,没有应用软件,所以只有一个平台,自然没有大数据应用落地的结果。 就连必要条件也都只是成立一半,如此说来,大数据一体机是不是太没有价值了?其实,也没有必要如此悲观。 在此,还需要说说什么是大数据一体机?有人说,与数据沾边的都可以称为大数据一体机,如此,这个世界上就没有什么不是大数据一体机了,这是一个被泛化的概念。有很多文章将IBM PureSystems、 Oracle Exadata/ Exalogic/ Exalytics/ SuperCluster/ ODA、SAP HANA、IBM Netezza、微软的PDW (SQL Server 2012 Parallel Data Warehouse Appliance)、EMC Greenplum都称为大数据一体机,应该说,这些属于一体机,与大数据应用有一定关联,但应该也不是大数据一体机。 对于大数据应用,公认有4个“V”( Volume,Variety,Value,Velocity),数据量巨大、数据类型繁多、价值密度低商业价值高和处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。处理速度快并没有一个数字。 对于海量数据进行快速处理,从技术途径来说,就是并行计算。这需要一定的体系结构支持,以Hadoop最为典型。通过Map/Reduce实现数据的检索和查询。互联网企业对此应用较为透彻,因此,大数据应用在互联网应用比较普遍,产品也比较成熟。以Google、百度搜索引擎为例,就是这种架构的典型应用。 Google、百度的搜索引擎首先通过“爬虫”获取数据,这些海量数据会按照分布式的方式进行存储,制作副本(通常Hadoop为3副本);通过Map对这些分布数据、副本进行并行检索,然后Reduce返回并聚合检索结果,这就是一个完整的服务。因此,对于互联网企业而言,依托强大软件开发团队,以及独特商业模式,其大数据应用顺利落地。其实,Google、百度的搜索引擎,就是一种最为典型的大数据应用模式。 对于行业用户而言,想要进行大数据应用,首先需要解决海量数据的分布存储和就近出来的问题,也就是要架构类似Hadoop的分布式数据存储模型,搭建软/硬件平台,对此,目前国内推出的大数据一体机,为用户提供了平台选择。这些大数据一体机进行了充分的软硬件兼容性测试,参数配置合理,因此可以减少一部分工作量。但仅仅有了这个平台还不够,需要用户定制相关的应用软件,这将确定用户大数据应用的方式和内容。从市场看,行业性质的大数据应用软件尚没有成型,更谈不上与大数据一体机的整合应用。因此,大数据应用要落地,仅有大数据一体机平台还不行,还需要应用软件的配合。 在国内,可以看到的大数据应用软件,Splunk是一个,并且已经进入中国。据说Informatica也有大数据应用软件,但宣传介绍的还不多,可以参考的资料有限。 责编:王珂玥 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 推荐圈子 |
|