Hadoop之父勾勒大数据的未来

来源：网界网

2012/11/9 9:30:21

“大数据不是炒作，也不是泡沫。Hadoop在未来将继续追随谷歌的脚步。”Hadoop的创造者兼Apache Hadoop项目创始人Doug Cutting近日表示。

作为一个批处理计算引擎，Apache Hadoop是大数据核心的开源软件框架。有一种说法是，Hadoop并不适用于真正实时数据可见性所需要的在线互动数据处理。事实是这样的吗?Hadoop的创造者兼Apache Hadoop项目创始人(现任Cloudera公司首席架构师)Doug Cutting说：“相信Hadoop拥有一个超越批处理的未来。”

Hadoop的创造者兼Apache Hadoop项目创始人、Cloudera公司首席架构师 Doug Cutting

“批处理有其用武之地。例如，你需要移动大量数据并分析所有数据的时候。但我仍认为，人们真正想要的是批处理和在线计算的结合体。Hadoop将会成为企业未来主流数据处理系统的内核。” Cutting说。

Hadoop行至何处?

在刚刚结束的Strata Conference+Hadoop World会议上，Cutting解释了Hadoop堆栈的核心思想，以及其未来的发展方向。“Hadoop被看作是一个批处理计算引擎，事实上，这是我们开始的地方(结合MapReduce)。MapReduce是一个很棒的工具，目前市场上有很多关于如何在MapReduce上部署各种算法的书籍。”Cutting说。

MapReduce是一个编程模型，由谷歌公司设计，用于使用分布式计算批量并行处理海量数据。MapReduce得到一个输入，然后将其分成很多更小的子问题，这些问题被分配到不同节点来并行处理。然后，它们重新组合子问题的答案以形成输出。

“这是非常有效的，”Cutting表示，“它允许你把计算移向数据。这样一来，当你处理数据时就不需要到处复制数据，并且它还形成了一个共享平台。构建分布式系统是一个复杂的过程，所以我们不希望反反复复重新部署它。MapReduce被证明是一个坚实的基础，依托MapReduce开发出了很多工具，例如Pig和Hive。”

Hadoop关键特性

为了证明Hadoop大数据平台的通用性，Cutting描述了他所认为的Hadoop的两个核心主题。首先，Hadoop平台具有很好的可扩展性，不仅适用于存储在内存中的小数据集，还能够扩展到处理庞大的数据集。

“评估可扩展性的一个关键因素是经济承受能力。我们在通用硬件平台上运行是因为它允许你进一步地扩展。如果你可以购买10倍的存储量，那么就可以存储10倍的数据量。所以，经济承受能力是关键，这也是我们使用通用硬件的原因，因为它是最经济实惠的平台。”Cutting说。

Hadoop另一个关键特性在于开源。Cutting指出，开源软件是非常实惠的。开发者可以向供应商付费，但是为了他们所提供的价值而付费。开发者不需要年复一年地付费，随着时间的推移，供应商需要通过向你提供价值来赢得开发者的信任和信心。此外，对于Hadoop而言，用户可以以原始的形态保存数据，然后，当你使用数据时，再使用不同的模式。

大数据领域另一种流行的做法是，在通常情况下，与更聪明的算法相比，分析更多的数据能够帮助你更好地了解你的问题。也就是说，你应该花更多的时间来收集数据，而不是调整较小数据集所采用的算法。直观地说，这很像是具有更高分辨率的图像，如果你试图分析图片，你应该选择放大高分辨率图片，而不是低分辨率图像。

Cutting还指出，批处理并不算是Hadoop的典型特性。例如，仿效谷歌BigTable的HBase是Hadoop堆栈的一部分，它已经成为非常成功的开源非关系型分布式数据库。HBase是一个在线计算系统，而不是批处理计算系统。

“HBase也支持批处理，它与HDFS以及Hadoop堆栈的其他组件共享存储。我认为这也是HBase如此受欢迎的原因之一。HBase被整合到系统的其他部分中，而不是成为一个独立的系统。它可以与堆栈的其他组件进行共享，可以对可用性、安全性和灾难恢复等特性进行共享。”Cutting解释说。

技术未来展望

如果Hadoop不仅仅是批处理计算平台，而是成为一个更为通用的数据处理平台，它将会变成什么样，它到底将走向何方?Cutting表示，我们当然希望拥有开源的大数据平台，并且能够在通用硬件上运行。同时，我们还希望它具有线性扩展能力，也就是说，如果你需要存储10倍数据，只需要购买10倍的硬件就可以了。无论你的数据集变得有多大，都可以采用这样的方式进行扩展。

性能方面同样是如此。对于批处理性能，如果你需要更大的批处理吞吐量或更小的延迟，你只需要增加硬件数量即可。而对于交互式查询，也是同样。增加硬件就能为你带来性能和数据处理量级方面的线性扩展。Cutting还表示：“人们通常会认为，采用大数据平台后，需要放弃某些东西。我不这样认为的。从长期来看，我们不需要放弃任何的功能。”

对于Hadoop未来的技术发展方向，Cutting表示谷歌已经给出了相关路线图。“谷歌发布GFS和MapReduce的论文后，我们很快地将其复制到Hadoop项目中。这些年以来，谷歌在很多方面激励着Hadoop开源堆栈。谷歌的Sawzall系统催生了Pig和Hive，而BigTable则直接启发了HBase。我很激动地看到，今年谷歌发表了名为Spanner的论文，其中介绍了在分布式数据库系统实现传输的机制。可能很多人都会认为这不会很快成为现实，但却为我们指明了前进的方向。”Cutting说。

Cutting指出，作为一项复杂技术，Spanner并不会很快成为Hadoop的一部分，但它确实明确了技术发展的方向。他同时还提到了Impala(Cloudera最新发布的数据库引擎)，它可以使用SQL查询存储在HBase中的数据集。Impala将为用户带来交互式在线查询的新体验，它同样追随了谷歌的一些研究成果，已经发布了一段时间。Cutting认为，Impala将发展成为一个通用的技术平台。

“我们已经知晓前进方向，并且知道如何去实现目标。所以，我鼓励大家现在就开始使用Hadoop，因为在未来你将收获更多。”Cutting说。

责编：毋小艺

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：畅享网文章著作权分属畅享网、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

Hadoop之父勾勒大数据的未来

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。