作者:phylips@bmy 2011-10-15
虽然标题有些诡异,但是实际上转成英文就一目了然了:Dynamo Dremel ZooKeeper Hive。这几个系统之间本身没有太过紧密的联系,只是最近休假期间把它们四个粗略看了一遍,因此放到一块简要总结一下。就这四篇比较来看,其中Dremel和Hive相对容易理解些,Dynamo和ZooKeeper则相对深奥一些。
银河里的星星
作者:phylips@bmy 2011-10-15
虽然标题有些诡异,但是实际上转成英文就一目了然了:Dynamo Dremel ZooKeeper Hive。这几个系统之间本身没有太过紧密的联系,只是最近休假期间把它们四个粗略看了一遍,因此放到一块简要总结一下。就这四篇比较来看,其中Dremel和Hive相对容易理解些,Dynamo和ZooKeeper则相对深奥一些。 read more
译者:phylips@bmy 2011-10-1
出处:http://duanple.blog.163.com/blog/static/70971767201191661620641/
本文翻译自:http://ofps.oreilly.com/titles/9781449396107/architecture.html
作为开源类BigTable实现。HBase目前已经应用在很多互联网公司中。
[说明:之前的那篇<<分布式系统领域经典论文翻译集>>颇显庞杂,涵盖内容五花八门,也有人提出不知道从哪开始。所以呢,就有了这一篇,主要以组成Hadoop生态系统的各组件为线索,串起了其中相对重要的那些论文,同时基本上也是按照从前往后的顺序由浅入深的,其中也包含了翻译集中所未出现的一些。这些文章中,标为(译)的那些是本人翻译的,标为(zz)的那些是其他人的译文或原创,剩余未标明的部分基本上是英文原文,可能会择其要者而译之。] read more
Monday, November 2nd, 2009 at 8:00 am by Doug Cutting, filed under data collection, general, hadoop, mapreduce.
王旭 [ gnawux(at)gmail.com , @gnawux, http://wangxu.me ]于11月2-3日译
译注:Doug Cutting 是 Hadoop 的大佬,目前在 Cloudera,Avro 基本上将成为未来 Hadoop 的数据描述和 RPC 的基础,今天看到这篇,就立刻翻译了,水平有限且译的比较草,请见谅,且欢迎纠错。 read more
作者:Dhruba BOrthakur & Joydeep Sen Sarma etc. Facebook Inc 2011-6
原文:http://wenku.baidu.com/view/5b1f48ef0975f46527d3e18b.html
译者:phylips@bmy 2011-9-11
出处:http://duanple.blog.163.com/blog/static/7097176720118121573597/
摘要
Facebook最近部署了Facebook Messages,这是它的首个构建于Apache Hadoop平台上的user-facing应用。使用构建于Hadoop之上的类数据库层Apach HBase来对每天数十亿的消息信息进行处理支持。这篇论文描述了Facebook在众多系统中(比如Apache Cassandra,Voldemort)最终选择了Hadoop和HBase的原因,并讨论了应用程序在一致性、可用性、分区容忍性、数据模型及可扩展性上的需求。我们还会探讨一下为了让Hadoop成为一个更有效的实时性系统所做的那些改进,在配置系统过程中所做的那些权衡,以及这种基于Hadoop的解决方案与Facebook和很多其他互联网公司在很多应用程序中采用的那种分片(sharded)MySQL数据库模式相比所具有的优势。我们还会讨论各种设计选择的背后动机,我们在日常工作中面临的挑战,一些未来的还在开发中的功能和改进。我们提供的这些关于部署中的各种观点可以为那些正在考虑使用基于Hadoop的解决方案取代传统分片RDBMS部署的公司,提供一种参考性的模型。 read more
http://www.slideshare.net/hortonworks/apache-hadoop-023
HDFS Federation http://www.hortonworks.com/an-introduction-to-hdfs-federation/
Next Generation of Apache Hadoop MapReduce http://www.slideshare.net/hortonworks/nextgen-apache-hadoop-mapreduce
HDFS High Availablity https://issues.apache.org/jira/browse/HDFS-1623 read more
from:http://cloud.csdn.net/a/20110429/296900.html
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。
Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和处理,经过语句解析和转换,最终生成基于Hadoop的MapReduce任务,通过执行这些任务完成数据处理。图1显示了Hive数据仓库的系统结构。 read more
作者:Owen Omalley 2009-8-27
原文:http://developer.yahoo.com/blogs/hadoop/posts/2009/08/the_anatomy_of_hadoop_io_pipel/
译者:phylips@bmy 2011-8-28
出处:http://duanple.blog.163.com/blog/static/70971767201172902737677/
引言
在一个典型的Hadoop MapReduce job中,通常是从HDFS上读取输入文件。为减少文件大小,文件数据通常是压缩过的,因此读取之后需要进行解压,之后得到序列化字节串,在传递给用户定义的Map函数之前再将这些字节串转换为java对象。输出则刚好是一个反向的过程,输出记录会被序列化,压缩,最终传送到HDFS上。这看起来很简单,但是因为下面的一些原因,这两个过程实际上是很复杂的: read more
zz from:http://www.cnblogs.com/spork/archive/2010/04/02/1703428.html
最近看到调度器这一块,发现Hadoop官方文档中有关公平调度器(Fair Scheduler Guide)和容量调度器(Capacity Scheduler Guide)部分的文档还没有汉化,Google了下也未发现有相关汉化,So,我班门弄斧,抛砖引玉一下了。这里先奉上公平调度器的中文版。由于我一直用Cloudera Hadoop 0.20.1+152的版本,所以这个汉化也是基于里面的文档来的。目前官方上的公平调度器部分已经改动了:
取消了配额文件,参数全部设置到mapred-site.xml。任务抢占特性也取消了。增删了一些参数。但是基本的原理和设置还是一样的,该文档仍适用于新版的公平调度器。 read more
英文原文:http://developer.yahoo.com/blogs/hadoop/posts/2011/02/mapreduce-nextgen/
zz from:http://blog.nosqlfan.com/html/1451.html
注:随着Hadoop的流行,其局限性也在一定程度体现,各大公司也在hadoop上做了很多修改,下面是雅虎对Hadoop下一代的重构计划。原文地址:http://sandaobusi.javaeye.com/blog/941740 read more
zz from:http://blog.csdn.net/wh62592855/archive/2011/05/17/6427766.aspx
【原文】 Hive – A Petabyte Scale Data Warehouse Using Hadoop
【作者】 Facebook 数据架构组 : Ashish Thusoo, Joydeep Sen Sarma, Namit Jain, Zheng Shao, Prasad Chakka, Ning Zhang, Suresh Antony, Hao Liu and Raghotham Murthy read more
zz from:http://www.oschina.net/news/15813/hadoop-mapreduce?from=rss
最近雅虎开发者博客发了一篇介绍Hadoop重构计划的文章。因为他们发现当集群的规模达到4000台机器的时候,Hadoop遭遇到扩展性的瓶颈,目前他们正准备开始对Hadoop进行重构。 read more
from:
After 25 years of dominance, relational databases and SQL have in recent years come under fire from the growing “NoSQL movement.” A key element of this movement is Hadoop, the open-source clone of Google’s internal MapReduce system. Whether it’s interpreted as “No SQL” or “Not Only SQL,” the message has been clear: If you have big data challenges, then your programming tool of choice should be Hadoop. read more