大数据还是太多信息?

来源:36氪  
2012/5/14 11:51:37
IBM负责超级计算机研发的Dave Turek给了我们一个答案,根据IBM的估算,人类自有史以来至2003年所创造的信息量为5艾字节(50亿GB),而到了去年,人类每两天就产生了如此多的信息量。据Turek的预测,到明年的时候,我们生成这样规模的信息量只需要10分钟!

本文关键字: 大数据 IBM

我们都知道现在地球上的信息太多,但是怎么多法,没有人知道。

 

IBM负责超级计算机研发的Dave Turek给了我们一个答案,根据IBM的估算,人类自有史以来至2003年所创造的信息量为5艾字节(50亿GB),而到了去年,人类每两天就产生了如此多的信息量。据Turek的预测,到明年的时候,我们生成这样规模的信息量只需要10分钟!

这怎么可能?!数据为何滥生到了这种地步?这么说吧,每次你的手机发送其GPS位置,每次你在网上买东西,每次你点击社交网络上的“喜欢”,你就给数字信息的海洋奉献了一个水滴。现在这片海洋大部分已经为此类数据所覆盖。

短信、客户记录、ATM交易、监控摄像……这条清单可以列得很长。我们有一个流行语总结这些东西:“大数据”,尽管这个词难以表述我们所创造的这个怪物的规模。

这是技术超出我们使用能力的一个最新例子。在这个例子里,我们还没能跟上自己捕捉信息的能力,所以这段时间管理大师总喜欢说未来属于能善用自己所收集数据的公司,尤其是具备实时利用能力者。

对于企业来说,能够解析自己客户的每一个数字化的蛛丝马迹者必将拥有领先优势,这种能力不仅仅在于能够了解过去几个小时里谁在哪里买了什么东西,而且还能够知悉他们是否对此发表了微博、有没有在社交网络上发过相关相片。

城市亦是如此。能够收集成千上万个传感器的数据,然后描绘出都市的数字化地图,并能够将城市生活的异常行为(如交通流量)变成科学的一定能够脱颖而出。

不奇怪的是,政治运动也已经开始这样的尝试,发疯地挖掘数据已经成为政客聚焦“纳米定位(nanotargeting)”选民策略的一部分,这样才能够精准地知道如何才能捞到选票。

寻求对零碎数据进行解释的狂热解释了Google上周为什么要开始销售一款名为BigQuery的产品,该软件可以在数秒钟之内扫描几TB的信息。也正因为此,数据分析初创公司Splunk上市首日的股价即飙升了90%。

数据科学家的崛起

但是,哪怕你拥有最好的数据解密工具也不能保证就能拥有大智慧。很少有公司拥有专门受训的员工,缺乏评估堆积如山的数据(包括数百万社交网络页面、智能手机上的非结构数据)的能力,更不用说对此做些什么。

去年麦肯锡发布了一份报告,把“大数据”形容为“创新的下一个前沿阵地”,但该机构同时也预测说到2018年,美国公司在这方面将会出现严重的人才短缺,具备必要的分析技能的人才缺口多达19万之巨。同时还认为美国具备数据知识的经理的需求将会超过150万(中国呢?)。

信息超载?

尽管如此,并非所有人都相信大数据的魔力。沃顿商学院的Peter Fader教授并不认为数据越多越好。同时他也不认为企业应该竭尽所能去了解自己的客户。他认为现在对数据聚合的关注太多了,而实际上,只有围绕着真正的分析进行的数据收集量才有意义。

Fader最近在接受麻省理工《技术评论》采访时说:

即便对过去行为拥有无穷多的知识,我们也无法掌握足够的信息去预测未来。实际上,我们的得到数据越多,我们所累积的盲目信心就越多……重要的是理解我们自身的局限在哪里,然后用有可能的最好的科学去突破这种局限。数据再多也实现不了这个目标。

您怎么看呢?

责编:赵龙
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918