大数据时代来临巨头破解密集计算困局

来源：it168 作者：王涛

2012/4/1 14:10:11

调研机构IDC认为，某项技术要想成为大数据技术，必须满足IBM所描述的三个“V”：即多样性(variety)、大容量(volume)和时效性高(velocity)。

本文关键字：存储大数据 IBM

继物联网、云计算之后，“大数据”已迅速成为市场和用户争相讨论的热门科技概念。那么究竟什么是大数据呢?调研机构IDC认为，某项技术要想成为大数据技术，必须满足IBM所描述的三个“V”：即多样性(variety)、大容量(volume)和时效性高(velocity)。多样性是指数据应包含结构化的和非结构化的数据；大容量是指聚合在一起供分析的数据量必须是非常庞大的；时效性高则是指数据处理的速度必须很快。

在2011年，“大数据”的概念已经赚足了人气，调研机构IDC数字宇宙在2011年6月的报告显示，全球数据量在2011年已达到1.8ZB，在过去5年里增加了5倍，而到2015年将达到近8ZB。进入2012年，大数据丝毫不会放慢增长的步伐，全球制造业、政府、零售商、金融等众多机构已经陷入“数据爆炸”的困境。

尤其在互联网和电信行业中，随着移动互联网的不断创新强大，海量数据蜂拥而至，更多新的数据形式也不断涌现，现在的数据早已不是结构化的了，还掺杂了包括办公文档、文本、图片、网页、报表、音频、视频信息等很多非结构化数据，这为传统的数据处理带来了新的挑战。

随着数据量的急剧增长，以及对数据在线处理能力的要求不断提高，海量数据的处理问题越来越受到关注。在金融、电信等领域，都需要通过对大量的用户数据进行分析，才能做出相应的决策。对互联网数据进行存储和处理的海量数据处理系统也开始向数据密集型计算系统发展。

数据密集型计算系统特点

数据密集型计算系统不仅需要存储超大规模的数据，还需要对这些数据进行复杂的计算与分析。由于对数据密集型大规模计算系统的需求越来越多，人们也越来越关注。不同于已有的分布式计算或高性能计算，数据密集型大规模计算的特点可以概括为两个方面：

海量的数据集：通常在PB级。这意味着对于一次计算任务而言，获取所需的数据所花费的时间将是不可忍受的，这完全不同于以往的计算系统，同时也给数据密集型大规模计算系统的设计与实现带来了新的挑战。

复杂的计算过程：简单地将数据进行分块处理已经不能满足数据密集型计算的需求。即使是对互联网数据的分析也开始具备科学计算的复杂性，这种计算的复杂性为局部性的优化和数据管理带来了新的挑战。

由于数据密集型大规模计算系统的研究还处在起步阶段，对于数据密集型大规模计算系统的体系结构设计仍在探索中，目前在对系统结构方面的研究中，重点大多集中在如何使计算尽可能地靠近数据。但是，当大规模计算的数据量超过1PB时，传统的存储子系统已经难以满足海量数据处理的读写需要，数据传输I/O带宽的瓶颈愈发突出。

因此，数据密集型计算系统在系统结构方面面临的最大挑战其实是如何在存储超大规模数据量的同时，保证存储系统与计算系统之间的I/O带宽。海量数据处理系统面向的应用是处理大量的数据，所以其设计关键是如何组织存储资源以获得高速的I/O吞吐率以及海量的数据容量。

责编：赵龙