|
分布式存储系统中数据副本管理机制分布式存储系统是基于存储服务器集群和分布式文件系统,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,并通过各种相应的应用软件或应用接口,共同为用户提供高可用、高可靠的数据存储和业务访问功能的存储资源系统。 分布式存储系统需要完善的数据副本创建、部署、选择、定位和一致性管理机制以保证分布式计算环境中的数据安全、可用、可靠、可扩展性和服务的高效、连续性。文中全面分析与研究了国内外对分布式存储系统中的副本管理机制研究现状,重点对副本创建、副本定位、副本一致性维护和副本撤销机制进行深入的研究,并从数据可用性、节点负载均衡、数据一致性和带宽消耗等性能指标进行了分析。文中的研究成果对于分布式存储系统的合理设计与构建具有良好的参考价值。 分布式存储系统(Distributed Storage Systems)是基于存储服务器集群(Cluster)和分布式文件系统,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,并通过各种相应的应用软件或应用接口,共同为用户提供高可用、高可靠的数据存储和业务访问功能的存储资源系统。为了保证数据安全、可用、可靠、可扩展性和服务的高效、连续性,分布式存储系统需要完善的数据多副本创建、部署、选择、定位和一致性管理机制。随着互联网中的用户对资源的需求量日益增多,如果仅有一份数据,则需要该数据的用户都须到同一个节点上读取它,网络容易出现拥塞,而处理能力有限的节点也会因为访问数量太大而宕机。然而,创建多份数据副本,并将它们合理分布在多个服务器节点上,分担处理访问请求的任务,可以有效降低节点失效率,减少用户响应时间。 文中详细分析了目前国内外对分布式存储系统中的副本管理机制研究现状,重点对副本创建、副本定位、副本一致性维护和副本撤销机制进行深入的研究,并从数据可用性、节点负载均衡、数据一致性和带宽消耗等性能指标进行了系统的分析。 1.副本创建 某一节点上的数据被频繁访问使得该服务器节点负载过重时,或出于提高可靠性的考虑时,可将数据复制一份或多份副本并存储到其它节点上。 1.1 副本数量的设置 副本数量对分布式存储系统的可用性的影响很大,创建太少容易产生数据热点问题,延长访问时间,太多则会造成无谓的存储空间浪费。很多存储系统复制的默认数据副本数是3份,即在数据投入使用时复制3份它的副本,之后根据具体情况来创建和撤销副本。 文献根据副本复制的数量可将副本复制方法分为3种:均匀复制,所有数据对象复制相同数量的副本;比例复制,复制数量与被访问频率成正比;方根复制,复制数量与被访问频率的方根成正比。方根复制在平均查询距离和副本利用率方面具有较理想的性能表现。文献经模拟实验得出当副本的生命周期较长和副本密度较高时更能体现方根复制方法的优势。虽然副本复制的数量一般被认为应该正比于原数据大小的平方根,而文献的研究结论表明,副本复制的数量应该反比于原数据大小的平方根。 1.2 副本复制策略 副本复制策略分为路径复制、源请求复制、邻居节点复制、随机复制和优先级复制五种: (1)路径复制。发送副本给请求路径上的所有节点。优点是实现原理简单,方便数据的查找;缺点是创建的副本数量供过于求,且增加了副本的一致性维护的开销。 (2)源请求复制。只发送副本给请求节点。LAR(Lightweight Adaptive Replication,轻量级自适应的复制方法)算法是美国马里兰大学研究人员提出的经典源请求复制算法,其主要思想是:当访问请求到达目的节点时,若目标节点未过载,则能读取数据,若目标节点处理能力不够,将创建一份新副本,而且如果请求节点未过载,才把新创建副本发给该请求节点,并告知请求路径上所有节点该请求节点上也有该数据副本。优点是对于目的节点来说,减少了副本的复制数量;缺点是请求路径上有该副本且达到复制阈值的节点都存一份副本到请求节点上,易造成请求节点过载。 责编:王雅京 微信扫一扫实时了解行业动态 微信扫一扫分享本文给好友 著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。 |
最新专题 |
|