外部存储可能适合Hadoop

来源:中国信息化周报  
2014/9/12 12:36:51
使用Hadoop驱动大规模数据的分析并不一定意味着构建分布式存储的集群,一台好的旧阵列可能是一个更好的选择。

本文关键字: 外部存储 Hadoop
使用Hadoop驱动大规模数据的分析并不一定意味着构建分布式存储的集群,一台好的旧阵列可能是一个更好的选择。
 
把外部共享存储用于大批数据有很多原因。首先,尽管Hadoop可以横向扩展处理多个PB的数据,但是大多数大规模数据集很可能只有10TB到50TB的幅度。几个TB大小的传统的数据集几乎等于零处理,但恰好在横向扩展的SANNAS解决方案的成本效益范围内。那些共享数据集对公司现有业务流程通常不可或缺,相对于HDFS,在企业级存储上可以更有效地被控制、管理和集成。
 
尽管有用于Hadoop生态系统的具备安全意识的部件,数据安全和保护是考虑使用外部存储的其它主要原因。备份、保护或者审计本机HDFS并非易事。当然,NAS和SAN内置了极好的数据保护和快照。但使用外部企业级存储的时候,一款高可用的Hadoop应用程序可能永远无法知道磁盘故障已经出现。
 
用外部存储构建Hadoop,你不仅可以把存储管理分开,也可以利用独立的“增长的载体”。毋须增加其它多余的资源就可以容易地增加存储或者计算。它也有成本方面的优势。
 
共享是外部存储的制胜之道,因为把大规模数据移进和移出Hadoop集群具有挑战性。使用外部存储的时候,多个应用程序和用户可以通过不通的客户端访问相同的“主”数据集,甚至在其正在被Hadoop应用程序使用的时候进行更新和写数据。
 
虚拟化场景中,外部存储也具有优势。我们预计这将成为在企业中部署Hadoop的常用方法。多个虚拟Hadoop节点可被托管到每个虚拟机管理程序,并可轻易地为指定的应用程序分配相关的资源。虚拟机管理程序级别的高可用/容错功能可以被用于生产级别的Hadoop应用程序。更多的资源可以被动态地应用到需要的地方,为某些Hadoop应用程序提供即便不是优越也是对应的性能。
 
考虑物理Hadoop架构的一个令人信服的理由是避免昂贵的SAN,尤其当数据集越来越大时。然而在虚拟环境中,考虑外部存储可能更适合。一个原因是精简仅限于计算的虚拟Hadoop集群相当简单,但是,散发大规模数据集仍是一项挑战。通过把数据托管到外部共享存储,精简虚拟Hadoop的托管就变得几乎无关紧要了,而DRS和HA之类的虚拟机管理程序的功能可以得到充分利用。
 
由于单个大规模数据集可以轻易地在多个虚拟化的Hadoop集群中被“恰当地”分享,因此有机会以相同的存储为多个客户端提供服务。通过消除数据集的多个拷贝,减少数据迁移的总量,并确保更高的可用性和数据保护,作为企业级应用程序,Hadoop变得更可管理,并轻易获得支持。在较少但存储选项相对更贵的虚拟服务器上托管虚拟化Hadoop的TCO仍然会比坚持使用专门的商品服务器物理集群的要低。
 
与DAS相比,外部存储更昂贵,但这只是与存放数据有关的平衡账目的“其它”事情而已。关于使用外部存储的决定必须以TCO为基础,包括同时考虑数据集的传入来源和端到端的工作流。其它工作负载可能可以有效地共享一个单一的数据资源库,而现有的资产和技能也可以被利用。另外,高端存储的摄入、性能、容量或者可伸缩性可能有限制。
责编:李玉琴
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
最新专题
流动存储 为大数据而生

伴随信息技术的突飞猛进,更大量级的非结构化数据与结构化数据构成的大数据成为企业级存储所面临的最大挑战:一方..

磁盘阵列及虚拟化存储

利用数组方式来作磁盘组,配合数据分散排列的设计,提升数据的安全性。虚拟化存储,对存储硬件资源进行抽象化表现。

    畅享
    首页
    返回
    顶部
    ×
      信息化规划
      IT总包
      供应商选型
      IT监理
      开发维护外包
      评估维权
    客服电话
    400-698-9918