1930的时候,赵元任写了篇<<施氏食狮史>>。 下面这个是两年多前写的了,其实当时应该是在调侃陈臣同学,“陈臣,陈:"臣,陈臣,晨,尘沉,衬尘"”,只是却想起了yaoyao同学。大概是无聊时候的游戏,只是仿佛已很久没当年那般无聊了。
from:http://cloud.csdn.net/a/20110429/296900.html
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。
Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和处理,经过语句解析和转换,最终生成基于Hadoop的MapReduce任务,通过执行这些任务完成数据处理。图1显示了Hive数据仓库的系统结构。
作者:Owen Omalley 2009-8-27
原文:http://developer.yahoo.com/blogs/hadoop/posts/2009/08/the_anatomy_of_hadoop_io_pipel/
译者:phylips@bmy 2011-8-28
出处:http://duanple.blog.163.com/blog/static/70971767201172902737677/
引言
在一个典型的Hadoop MapReduce job中,通常是从HDFS上读取输入文件。为减少文件大小,文件数据通常是压缩过的,因此读取之后需要进行解压,之后得到序列化字节串,在传递给用户定义的Map函数之前再将这些字节串转换为java对象。输出则刚好是一个反向的过程,输出记录会被序列化,压缩,最终传送到HDFS上。这看起来很简单,但是因为下面的一些原因,这两个过程实际上是很复杂的:
作者:Jeff Dean, Sanjay Ghemawat
原文:http://leveldb.googlecode.com/svn/trunk/doc/impl.html
译者:phylips@bmy 2011-8-17
译文:http://duanple.blog.163.com/blog/static/70971767201171821616246/
Files
LevelDB的实现本质上类似于Bigtable中的tablet(参见Bigtable论文5.3节)。但是,与论文中的具体的文件组织方式稍有不同,解释如下:
作者:Jeff Dean, Sanjay Ghemawat
原文:http://leveldb.googlecode.com/svn/trunk/doc/index.html
译者:phylips@bmy 2011-8-16
译文:http://duanple.blog.163.com/blog/static/70971767201171705113636/
LevelDB库提供了一种永久性的key value存储。Key和value都是任意的字节序列。在这个key value存储系统中,key按照用户声明的比较函数有序排列。
这两句出自苏轼的《定风波》,写于因“乌台诗案”被贬黄州后的第二年。
定风波
三月七日沙湖道中遇雨。雨具先去,同行皆狼狈,余独不觉。已而遂晴,故作此。
莫听穿林打叶声,
何妨吟啸且徐行。
竹杖芒鞋轻胜马,谁怕?
一蓑烟雨任平生。
料峭春风吹酒醒,微冷,
山头斜照却相迎。
回首向来萧瑟处,归去,
也无风雨也无晴。
zz from:http://www.cnblogs.com/spork/archive/2010/04/02/1703428.html
最近看到调度器这一块,发现Hadoop官方文档中有关公平调度器(Fair Scheduler Guide)和容量调度器(Capacity Scheduler Guide)部分的文档还没有汉化,Google了下也未发现有相关汉化,So,我班门弄斧,抛砖引玉一下了。这里先奉上公平调度器的中文版。由于我一直用Cloudera Hadoop 0.20.1+152的版本,所以这个汉化也是基于里面的文档来的。目前官方上的公平调度器部分已经改动了:
取消了配额文件,参数全部设置到mapred-site.xml。任务抢占特性也取消了。增删了一些参数。但是基本的原理和设置还是一样的,该文档仍适用于新版的公平调度器。
早上,朋友告诉我之前翻译的系列文章,有在新浪微博上看到别人推荐。联系到最近访问量暴增,看下统计果然有些流量是从weibo上导过来的,顿感压力山大,唯恐贻笑大方。
一方面某些文章已经是一年之前翻译的了,现在回头再看也发现其中有些理解偏颇的地方。另一方面即算现在来看,感觉还有些地方未理解透彻。当初翻译这些论文的目的在于一方面加深自己的印象,另一方面也是为了记录自己对于关键内容的理解,所以这应该是一个长期的不断改进的过程。后面这项工作应该也会持续下去,对于其中已经有翻译版本的,除非必要应该不会再去翻译,虽无严格的计划,但是大概会有几个步骤:继续关注分布式基础理论方面的论文,研究下Hadoop的源代码,做一个关于锁的专题,看下Dynamo这一系列的理论基础及相关系统
作者:Kirk McKusick & Sean Quinlan 2009-8
原文:http://queue.acm.org/detail.cfm?id=1594206
译者:phylips@bmy 2011-8
译文: http://duanple.blog.163.com/blog/static/7097176720117611327190/
[一个Kirk McKusick 与Sean Quinlan之间关于GFS的起源和演化的讨论]