当前位置：首页 > 存储 > 存储案例 > 正文

浅谈Facebook图片存储系统HayStack概要

来源：it168 作者：张友东

2011/5/16 13:57:14

大中小

HayStack是Fackbook用于存储照片的系统，其存储照片的数量在千亿数量级，本文简要分析HayStack的设计与实现原理。

分享到：新浪微博腾讯微博

本文关键字： Facebook 图片存储

HayStack是Fackbook用于存储照片的系统，其存储照片的数量在千亿数量级，本文简要分析HayStack的设计与实现原理。

图片存储的几个关键点：

1. Metadata信息存储。由于图片数量巨大，单机存放不了所有的Metadata信息，假设每个图片文件的Metadata占用100字节，260 billion图片Metadata占用的空间为260G_*100 = 26000GB。

2. 减少图片读取的IO次数。在普通的Linux文件系统中，读取一个文件包括三次磁盘IO：读取目录元数据到内存，把文件的inode节点装载到内存，最后读取实际的文件内容。由于文件数太多，无法将所有目录及文件的inode信息缓存到内存，因此磁盘IO次数很难达到每个图片读取只需要一次磁盘IO的理想状态。

3. 图片缓存。图片写入以后就不再修改，因此，需要对图片进行缓存并且将缓存放到离用户最近的位置，一般会使用CDN技术。

HayStack的主要目标：

1. High throughput and low latency(高吞吐量、低延时)：简化元数据结构与存储模式，直接存储文件在物理卷上的位置，减小lookup时间。

2. Fault-tolerant(容错性)：在不同的机器上维护多个副本

3. Cost-effective(高效)：提高存储空间利用率、提高请求处理效率。

4. Simple(简单)：易于实现和维护，部署周期短。

HayStack的总体架构：

Haystack的写请求(图片上传)处理流程为：Web Server首先请求Haystack Directory获取图片的id和可写的逻辑卷轴，接着将数据写入对应的每一个物理卷轴(备份数一般为3)。

Haystack图片读取请求大致流程为：用户访问一个页面时，Web Server请求Haystack Directory构造一个URL：http：// / / / ，后续根据各个部分的信息依次访问CDN，Cache和后端的Haystack Store存储节点。Haystack Directory构造URL时可以省略部分从而使得用户直接请求Haystack Cache而不必经过CDN。Haystack cache收到的请求包含两个部分：用户Browser的请求及CDN的请求，Haystack cache只缓存用户Browser发送的请求且要求请求的Haystack Store存储节点是可写的。一般来说，Haystack Store的存储节点写一段时间以后达到容量上限变为只读，因此，可写节点的图片为最近增加的图片，是热点数据。

Haystack 删除操作比较简单，只是在 Haystack 存储的指针上设置一个已删除标志，已经删除的指针和索引的空间并不回收。可通过定期的对物理卷进行合并，以回收已删除的空间。

责编：陈慧

微信扫一扫实时了解行业动态

微信扫一扫分享本文给好友

收藏到畅享打印全文复制链接添加到收藏投稿邮箱

分享到：新浪微博腾讯微博

著作权声明：畅享网文章著作权分属畅享网、网友和合作伙伴，部分非原创文章作者信息可能有所缺失，如需补充或修改请与我们联系，工作人员会在1个工作日内配合处理。

浅谈Facebook图片存储系统HayStack概要

通过咨询项目或年度顾问方式，帮助您架起业务和IT的桥梁，解决业务和IT创新融合、现有系统取舍难、IT架构、建设路径、IT治理、IT支出优化等IT策略问题。

与您签订总包或三方合同，帮您解决业务和IT规划落地走样、IT详细设计缺失、难以寻觅靠谱的技术供应商、多个供应商协调难、维护升级服务保障难等棘手问题。

与您签订监理合同，以里程碑专家评审、项目变更协调、风险控制研讨、供应商关系协调、CIO智力网络等为主要服务内容，与甲乙方一起实现上线成功。

畅享IT帮助寻找可靠的、性价比高的开发力量，签订外包合同或三方合同，为企业提供可信赖的开发量，为IT供应商解决开发力量不足的问题。

畅享IT帮助寻找靠谱的、性价比高的维护力量，签订外包合同，对客户满意度负责，为客户解决维护运营服务保障难的问题。

对IT系统、IT项目或IT管理进行评估，出具中立评估报告，解决IT评价难、取舍难的问题。