作者:phylips@bmy 时间:2011-3-27
出处:http://duanple.blog.163.com/blog/static/70971767201133011171419/
作为这个星球上最大的互联网公司,毫无疑问google正在引领着海量数据处理实践的潮流。虽然Google经常发表一些对于自己来说已经过时甚至不再使用的技术的论文,但是发表之后总会有类似的系统被业界实现出来,也足以说明google的技术至少领先业界数年。
而google的论文现在也成为研究分布式系统的必读内容,因为有太多的系统都是从那几篇论文中衍生出来。当然最为人所知的仍然是GFS,MapReduce,BigTable这三篇,而目前关于这三篇论文已经存在多个版本的翻译。之所以还选择翻译这三篇,主要目的还是在于加深自己的印象,因为它们实在太重要了。本身在翻译的过程中尽量贴近于英文原文的内容,因此可能有些地方翻译的有些生硬,网上应该存在更好的翻译版本。
除此之外,另两篇很重要的则是关于Cluster及Chubby的。关于Cluster的这篇发表时间最早,因此与现在的系统已有很大的差异,但是其中的很多内容仍然是值得认真阅读的,而且关于此篇,目前我还未发现有翻译版本。关于Chubby的这篇,则更为抽象,因为Chubby本身只是被其他系统底层使用,而且它底层采用的Paxos,Lease这些算法及机制,如果不是分布式领域的研究人员,很少有人了解,目前为止仍未见到其翻译版本,网上倒是有些简短的阅读笔记,但是不足以了解Chubby系统的全貌。
可以说以上五篇是google整个分布式计算系统最基础的部分。其实还应该加上Sawzall,这样才组成了完整的SMAQ系统。而类Sawzall的系统也有很多,比如yahoo的Pig,微软的Drydlinq。Sawzall这篇,网上已有很好的翻译版本,所以此处不再进行翻译。
除此之外,google近年来又公布了很多内部使用的计算查询系统,这些系统的设计思路也具有很大的参考价值,解决的都是一些很具体实际的问题。然而,网上对其介绍的内容甚少,所以这里我会对其一并翻译。主要包括Pregel,Percolator,Dremel,MegaStore。
同时,还有一篇不能忽略的需要翻译的文章,就是其创始人Sergey Brin 和Lawrence Page发表的奠定google搜索引擎基础架构的论文<<The anatomy of a large-scale hypertextual Web search engine>>,虽然google现今的系统与之相去甚远,但是该论文仍然不失为一篇搜索领域的经典入门文章。
所以初步决定,该系列会有10几篇论文,但是随着时间的推移,google可能会发布一些新的论文,因此这应该不会是一个固定的数字。