|
大数据存储管理系统面临挑战的探讨传统的存储解决方案能提供数据的可靠性和绝对的安全性,但是面对海量的数据及其各种不同的需求,传统的解决方案日益面临越来越多的问难。一方面传统的存储解决方案正在改变,另一方面全新的存储解决方案正日渐成熟,来有效满足大数据的发展需求。 5)扩容方式 虽然传统存储系统和大数据存储系统都具有可扩性,但是其扩展方式是截然不同的。传统存储是纵向扩容(Scale-up)即当存储容量不够或者存储磁盘带宽不够时,在SAN或者NAS存储池中继续添加磁盘(Hard-drive)来达到增加容量和带宽的作用,但是大数据时代纵向扩容方式是无法满足其需求的。首先,大数据的数据规模目前已经是EB(EXA-BYTE)级别,将来甚至会达到ZB(ZETA-BYTE),这个数量级别的存储容量是无法通过单纯的往网络存储池添加硬盘来实现的。其次,即使可以通过纵向扩容达到更大数据规模的需求,其高额的硬件及管理软件成本也是数据存储管理中心无法承担的。因此,对于大数据存储系统来说横向扩张才能够很好的达到巨量数据规模的需求,才能够实现存储系统的按需(ON-DEMAND)动态规模增减。所谓的横向扩容是指当存储容量或者带宽不足以满足现有要求足时,添加存储节点来达到扩容的目的。在大数据的应用领域,每一个节点不需要高价的磁盘阵列(RAID),相反只需要一定数量的各种类型的硬盘以独立工作单元方式进行管理(即JBOD存储设备)。根据Google的设想,这些节点甚至可以是一些成本较为低廉的日常用机器(甚至是台式机)。横向扩容意味着数据管理软件将要统筹更多的节点,面对更大的压力。例如如果采用集中式的主节点管理,主节点的能力可能成为整个大数据存储系统的性能瓶颈,尤其是当规模的扩大到成千上万个节点时,单管理节点的模式是不可靠的;如果采用分布式主节点群管理,软件的开发成本和系统本身的复杂度相应就会提高。 6)存储模式 传统的存储系统是依赖于SAN或者NAS这样的网络存储模式,这样的存储模式存在着如上所述纵向扩容瓶颈,更重要的是它们将计算节点与存储节点分隔开,通过网络来共享一个或多个存储池,最终使得数据的存取速度被限制在网络的瓶颈上,即使通过纵向扩容其存储池容量和带宽都得到了提高,最终却受限于它们与数据处理节点之间的网络带宽上。而对于大数据的处理和存取来说,最终的速度都受制于SAN或者NAS的物理网络带宽,这是远远无法满足EB级别数据规模的需求的。因为网络存储对于大数据意味着当计算发生时,PB或者EB级别的数据需要通过SAN或者NAS的网络搬迁到计算节点上进行各种应用的处理,然后再将结果返回,而这样巨量数据的搬迁本身也许比起计算应用更加耗时。所以目前大数据存储系统普遍采用的是DAS的方式,并且将计算资源搬迁到数据的存储节点上发生,但是简单的DAS方式仍然给存储管理系统的软件层增加了许多的新问题,例如通过网络的跨节点数据访问管理,存储数据块的管理等。 7)兼容集成 对于大数据存储系统的兼容集成特性涉及到若干方面,首先正由大数据的多样性特点所决定,其存储系统需要兼容各种种类的数据,有结构化、半结构化及非结构化数据,而传统的数据库存储则是管理结构化的关系型数据,其数据的种类比较单一;其次,大数据的存储需要和各种数据源和数据存储系统整合集成系统工作,正如之前典型的架构所列举,其数据交换接口需要兼容各种数据传输机制才能够很好的服务数据中心的各种需求;再者,大数据计算要对大量的数据提供各种有效服务,例如有些批处理(Batch.style)数据分析或者机器学习算法需要处理大量的数据,有些交互式(Interactive-access)的数据访问或者查询需要快速返回;有些流式(streaming)计算的及时运算与响应,这些计算服务的数据都被存放在统一的大数据存储系统之上,因为反复的搬迁大规模的数据对于任何大数据应用来说都是降低效率的致命短板,所以基于大数据的存储系统可以支持各种上层应用的需求,提供统一或者兼容性强的读写接口;第四,大数据存储管理系统需要支持各种介质的存储设备来满足上层各种应用的需求。例如对于经常访问的热点数据,存储系统可以从磁盘读取数据的同时将数据缓存存放在内存或者Flash(SSD)中,这要求大数据的存储系统支持多级缓存操作,并且很好的兼容各种硬件存储设备。 8)故障维护 相较于传统存储系统,大数据的存储系统成本不仅仅意味着花费的多少,更多的涉及到其可用性。当数据管理系统的硬件规模达到成千上万时,每一个节点和节点的磁盘成本就会被成千上万地扩大,根据Google最初的设想,大数据的处理集群只需要采用低廉的日常用机即可(甚至可以是台式机),而低廉的存储设备加上众多节点使得故障率会高于一般的传统存储系统。因而对于大数据的存储系统来说,一是需要强大的容错软件管理能力,二是需要更加有效的运维系统来监控各种故障的发生,尤其是对于大数据存储系统可能拥有十万级别的硬盘,磁盘故障可能每天都会发生。 4、大数据存储方案简介 大数据存储方案随着大数据计算的发展也已经历时将近10年,有的已经被广泛应用,有的则是被不断的完善中,以下列举若干较为著名的大数据存储方案及其优缺点。 1)HDFS 大数据计算最为代表性的就是Google在2004年提出的MapReduce框架和相应的GFS存储系统。2008年Yahoo的工程师根据MapReduce的框架推出了开源的Hadoop[41项目,作为一个大数据处理典型开源实现,如今Hadoop项目已经被广泛应用于各大互联网企业的数据中心,并且正努力从一个开源项目走向商业化应用产品,不断得到完善。而HDFS(Hadoop Distributed File System)就是支持Hadoop计算框架的分布式大数据存储系统,它具有大数据存储系统几项重要特性,具有很高的容错性、可扩展性、高并发性,并且基于廉价存储服务器设备,是目前最为流行的大数据存储系统。但是它还有许多方面需要进一步完善,例如目前HDFS自身不能与POSIX文件系统兼容,用户需要通过其自定义的接口对数据进行读写管理,增加了各种数据存储之间交换的开发成本;又如目前HDFS为了到达高容错性,在数据中心中推荐及实际操作的副本数目设置为三,也就意味着用户的任意一份数据都会被复制三份保存在存储系统中,这样造成存储系统保存的数据量远大于实际用户需要的存储量,相比传统的RAID存储空间效率要低很多。 2)Tachyon 来自于美国加州大学伯克利分校的AMPLab的Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,其吞吐量要比HDFS高300多倍。Tachyon都是在内存中处理缓存文件,并且让不同的作业任务或查询语句以及分布式计算框架都能以内存的速度来访问缓存文件。由于Tachyon是建立在内存基础上的分布式大数据文件系统,所以其高吞吐量也是HDFS不能够媲美的,当然截止目前Tachyon也只是0.2 alpha发行版其稳定性和鲁棒性还有待检验。 3)其他 Quant_cast File Syste(QFS)是一个商陛能、容错、分布式的开源大数据文件系统,其开发是为HDFS提供另一种选择,但是其读写性能可以高于HDFS,并能比HDFS节省50%存储空间。Ceph是基于POSIX的没有单点故障的PB级分布式文件系统,从而使得数据能容错和无缝的复制,Ceph的客户端已经合并到Linux内核2.6.34中;GlusterFS是一个可以横向扩展的支持PB级的数据量开源存储方案。GlusterFS通过TCP/IP或者InfiniBand RDMA方式将分布到不同服务器上的存储资源汇集成一个大的网络并行文件系统,使用单一全局命名空间管理数据。GIuster存储服务支持NFS、CIFS、HTTP、FTP以及Gluster自身协议,完全与POSIX标准兼容。现有应用程序不需要作任何修改或使用专用API,就可以对Gluster中的数据进行访问。 5、小结 存储管理已然成为大数据研究和应用的核心组件,各种改善人们El常生活、提高企业运营能力的实际应用都离不开数据的存取、分析和管理。本文从定义大数据开始,描述了其广泛应用和典型的架构,着重分析了大数据存储的三个主要特点(Volume规模大、Velocity速度快、Variety多样性)以及传统存储针对大数据面临的各种挑战。最后本文简单介绍了几种较为著名的大数据存储解决方案。无论是传统存储还是大数据存储,都要不断适应大数据应用的主要特点和基础架构,通过不断的改进和完善来切实有效地存取和处理El渐丰富的信息量。 责编:李玉琴 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 |
|