hive – duanple

Sawzall原理与应用

2012年7月24日阅读(919)

序：Sawzall的论文早在2006年就发表了，后来Google又推出了Tenzing，Dremel等数据分析系统，到了2010年就把Sawzall给开源了，项目主页：http://code.google.com/p/szl/。与Tenzing，Dremel相比， Sawzall所能做的事情还是比较有限，但是作为一种DSL，毕竟还是要比直接写MapReduce job要更易用些。本文就简单描述下其原理使用及扩展方法，转载请注明： read more

分布式系统

发电机，电磨，动物园看守与蜂巢

2011年10月21日阅读(603)

作者：phylips@bmy 2011-10-15

虽然标题有些诡异，但是实际上转成英文就一目了然了：Dynamo Dremel ZooKeeper Hive。这几个系统之间本身没有太过紧密的联系，只是最近休假期间把它们四个粗略看了一遍，因此放到一块简要总结一下。就这四篇比较来看，其中Dremel和Hive相对容易理解些，Dynamo和ZooKeeper则相对深奥一些。 read more

分布式系统

HIVE RCFile高效存储结构(zz)

2011年8月30日阅读(842)

from：http://cloud.csdn.net/a/20110429/296900.html

本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在 MapReduce环境下的大规模数据分析中扮演重要角色。

Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和处理，经过语句解析和转换，最终生成基于Hadoop的MapReduce任务，通过执行这些任务完成数据处理。图1显示了Hive数据仓库的系统结构。 read more

分布式系统

Hive-A Petabyte Scale Data Warehouse Using Hadoop(

2011年5月24日阅读(937)

zz from：http://blog.csdn.net/wh62592855/archive/2011/05/17/6427766.aspx

【原文】 Hive – A Petabyte Scale Data Warehouse Using Hadoop

【作者】 Facebook 数据架构组： Ashish Thusoo, Joydeep Sen Sarma, Namit Jain, Zheng Shao, Prasad Chakka, Ning Zhang, Suresh Antony, Hao Liu and Raghotham Murthy read more