io – duanple

The Anatomy of Hadoop IO Pipeline(译)

2011年8月29日阅读(683)

作者：Owen Omalley 2009-8-27

原文：http://developer.yahoo.com/blogs/hadoop/posts/2009/08/the_anatomy_of_hadoop_io_pipel/

译者：phylips@bmy 2011-8-28

出处：http://duanple.blog.163.com/blog/static/70971767201172902737677/

引言

在一个典型的Hadoop MapReduce job中，通常是从HDFS上读取输入文件。为减少文件大小，文件数据通常是压缩过的，因此读取之后需要进行解压，之后得到序列化字节串，在传递给用户定义的Map函数之前再将这些字节串转换为java对象。输出则刚好是一个反向的过程，输出记录会被序列化，压缩，最终传送到HDFS上。这看起来很简单，但是因为下面的一些原因，这两个过程实际上是很复杂的： read more