序:Sawzall的论文早在2006年就发表了,后来Google又推出了Tenzing,Dremel等数据分析系统,到了2010年就把Sawzall给开源了,项目主页:http://code.google.com/p/szl/。与Tenzing,Dremel相比, Sawzall所能做的事情还是比较有限,但是作为一种DSL,毕竟还是要比直接写MapReduce job要更易用些。本文就简单描述下其原理使用及扩展方法,转载请注明:
作者:phylips@bmy 2011-10-15
虽然标题有些诡异,但是实际上转成英文就一目了然了:Dynamo Dremel ZooKeeper Hive。这几个系统之间本身没有太过紧密的联系,只是最近休假期间把它们四个粗略看了一遍,因此放到一块简要总结一下。就这四篇比较来看,其中Dremel和Hive相对容易理解些,Dynamo和ZooKeeper则相对深奥一些。
from:http://cloud.csdn.net/a/20110429/296900.html
本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。
Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和处理,经过语句解析和转换,最终生成基于Hadoop的MapReduce任务,通过执行这些任务完成数据处理。图1显示了Hive数据仓库的系统结构。
zz from:http://blog.csdn.net/wh62592855/archive/2011/05/17/6427766.aspx
【原文】 Hive – A Petabyte Scale Data Warehouse Using Hadoop
【作者】 Facebook 数据架构组 : Ashish Thusoo, Joydeep Sen Sarma, Namit Jain, Zheng Shao, Prasad Chakka, Ning Zhang, Suresh Antony, Hao Liu and Raghotham Murthy