|
拥抱大数据 走近大数据分析工具若要说目前IT领域热度最高词的话,除了云计算外,恐怕就是大数据了。当前数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。大数据正在推动生产力迅速发展和创新,对于海量数据的应用也预示着新一波生产率大幅增长时期的到来。 若要说目前IT领域热度最高词的话,除了云计算外,恐怕就是大数据了。当前数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。大数据正在推动生产力迅速发展和创新,对于海量数据的应用也预示着新一波生产率大幅增长时期的到来。 大数据的好处 严格地说,大数据并非一个新词,被誉为“数据仓库之父”的Bill Inmon早在上世纪90年代就经常将“Big Data”挂在嘴边了。大数据之所以在近一两年迅速走红,要归结于互联网、移动设备、物联网和云计算的迅猛发展,它们使得人类每分每秒都在产生巨量数据——从出现文明到2003年,人类总共才创造 5 EB(5 ExaBytes)的数据,但现在全世界仅数天内就可创造出相同的数据量。来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB×35=37580963840TB),也就是说全球大概需要376亿个1TB的硬盘来存储这些数据。 但是大数据并非单指数据量大,对于大数据,IDC的定义是:“大数据是为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。”人们普遍将该定义概括为四个“V”,即更大的容量(Volume,从TB级跃升至PB级,甚至EB级)、更高的多样性(Variety,包括结构化、半结构化和非结构化数据),以及更快的生成速度(Velocity)。前面三个“V”的组合推动了第四个因素——价值(Value),而关于大数据所蕴含的价值,有许多被人所津津乐道的故事可以佐证。 大数据的4V特性 早在19世纪,“百货商店之父”约翰·沃纳梅克便提出了:“我在广告上的投资有一半是无用的,但是问题是我不知道是哪一半?”这也是对经典商业模式下供需不对称的典型描述。而现在依靠大数据的分析预测能力,一些精明的零售商正在收集和挖掘消费大数据,针对顾客在网上的购买行为,投其喜好进行销售与推广,实现社交电子商务和库存优化。 例如,大数据分析软件有可能使零售商进行直接相关的促销和营销活动,激励消费者进行网购,并跟踪由此产生的销售交易,最大限度地提高消费,提高盈利能力,在短时间内产生最大收益。比如Trident Marketing是一家营销企业,其客户包括DIRECTV等品牌,通过IBM大数据分析软件的帮助,他们甚至可以预计客户最佳联系时间以及客户是否会取消购买服务。其营收在短短4年间增长了10倍,产品部署后头两个月的销售额增长10%,而且其客户流失率降低了50%。 去年,西班牙电信推出了名为“智慧足迹”的大数据服务,通过向数据挖掘公司等合作方提供定向人流的移动数据,为零售客户开店选址和促销提供借鉴。另一个典型的案例是,2012年成功获得连任的美国总统奥巴马背后,有一个几十人的数据分析与挖掘团队,帮助他在获取有效选民、投放广告、募集资金等方面发挥作用。 从以上的例子不难看出,大数据的价值和重要性已经毋庸置疑。不过现在最关键的问题是,每个企业如何才能获取大数据中的“宝藏”呢? Hadoop,大数据分析利器 对于较大的公司来说,海量数据处理已经不是什么新鲜的东西了。例如,Twitter和LinkedIn已经是大数据的著名用户了,这两家公司已经奠定了明显的竞争优势,通过挖掘他们的大规模数据仓库来判断发展趋势。那么,中型企业的CIO该怎么办呢?幸运的是,手边就有可用的工具。这些工具中有一款是免费的,那就是Hadoop,它基于Java的Apache Hadoop编程框架。Hadoop是一个分布式系统基础架构,由Apache基金会开发,用户可以在不了解分布式底层细节的情况下开发分布式程序。简单来说,Hadoop是一套开源的、以Java为基础的、可对PB级别的大数据进行存储和计算的软件平台,它能够让数千台X86服务器组成一个稳定的、强大的集群。而对那些想充分利用大数据的IT专业人员,Hadoop解决了与大数据相关联的最常见的问题:高效的存储和访问海量数据。
责编:李代丽 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
热门博文 |
|