作者:Konstantin Shvachko, Hairong Kuang etc. 2010-10
原文:http://storageconference.org/2010/Papers/MSST/Shvachko.pdf
原文:http://www.aosabook.org/en/hdfs.html
译者:phylips@bmy 2011-9-12
译文:http://duanple.blog.163.com/blog/static/70971767201181744412133/
摘要
Hadoop分布式文件系统(HDFS)设计用于为大规模数据集提供可靠性的存储,同时能够将数据集以高带宽的传输速率推送给用户应用程序。在一个大规模集群上,将会有数千台的服务器同时负责数据存储及执行用户应用级的计算任务。通过将存储和计算分布到很多个服务器上,使得存储和计算资源可以在保持低成本的情况下根据数据规模按需增长。在本文中,我们会描述下HDFS的架构,以及我们在Yahoo!使用HDFS来管理25PB的企业数据的相关经验。