google系列论文译序

2011年5月3日阅读(2,336)

作者：phylips@bmy 时间：2011-3-27

出处：http://duanple.blog.163.com/blog/static/70971767201133011171419/

作为这个星球上最大的互联网公司，毫无疑问google正在引领着海量数据处理实践的潮流。虽然Google经常发表一些对于自己来说已经过时甚至不再使用的技术的论文，但是发表之后总会有类似的系统被业界实现出来，也足以说明google的技术至少领先业界数年。

而google的论文现在也成为研究分布式系统的必读内容，因为有太多的系统都是从那几篇论文中衍生出来。当然最为人所知的仍然是GFS，MapReduce，BigTable这三篇，而目前关于这三篇论文已经存在多个版本的翻译。之所以还选择翻译这三篇，主要目的还是在于加深自己的印象，因为它们实在太重要了。本身在翻译的过程中尽量贴近于英文原文的内容，因此可能有些地方翻译的有些生硬，网上应该存在更好的翻译版本。

除此之外，另两篇很重要的则是关于Cluster及Chubby的。关于Cluster的这篇发表时间最早，因此与现在的系统已有很大的差异，但是其中的很多内容仍然是值得认真阅读的，而且关于此篇，目前我还未发现有翻译版本。关于Chubby的这篇，则更为抽象，因为Chubby本身只是被其他系统底层使用，而且它底层采用的Paxos，Lease这些算法及机制，如果不是分布式领域的研究人员，很少有人了解，目前为止仍未见到其翻译版本，网上倒是有些简短的阅读笔记，但是不足以了解Chubby系统的全貌。

可以说以上五篇是google整个分布式计算系统最基础的部分。其实还应该加上Sawzall，这样才组成了完整的SMAQ系统。而类Sawzall的系统也有很多，比如yahoo的Pig，微软的Drydlinq。Sawzall这篇，网上已有很好的翻译版本，所以此处不再进行翻译。

除此之外，google近年来又公布了很多内部使用的计算查询系统，这些系统的设计思路也具有很大的参考价值，解决的都是一些很具体实际的问题。然而，网上对其介绍的内容甚少，所以这里我会对其一并翻译。主要包括Pregel，Percolator，Dremel，MegaStore。

同时，还有一篇不能忽略的需要翻译的文章，就是其创始人Sergey Brin 和Lawrence Page发表的奠定google搜索引擎基础架构的论文<<The anatomy of a large-scale hypertextual Web search engine>>，虽然google现今的系统与之相去甚远，但是该论文仍然不失为一篇搜索领域的经典入门文章。

所以初步决定，该系列会有10几篇论文，但是随着时间的推移，google可能会发布一些新的论文，因此这应该不会是一个固定的数字。

google 分布式系统搜索与分布式经典论文翻译

google系列论文译序

You Might Also Like

Distributed Snapshots-Determining Global States of a Distributed System(译)

雅虎计划重构 Hadoop-MapReduce，解决性能瓶颈(zz)

Pregel: A System for Large-Scale Graph Processing(

duanple

InfoQ: 伏威谈淘宝网的高并发处理与压力测试(zz)

分布式理论(3)：Paxos Made Simple