分布式系统 – 第4页

A Comparision of Approaches to Large-Scale Data An
2011年10月7日阅读(614)

作者：Andrew Pavlo &Erik Paulson etc. 2009-6

原文：http://db.csail.mit.edu/pubs/benchmarks-sigmod09.pdf

译者：phylips@bmy 2011-10-4

译文：http://duanple.blog.163.com/blog/static/7097176720119701941950/

摘要

使用MapReduce模型进行大规模数据分析目前已成为一个炙手可热的领域而备受关注[17]。尽管该框架的基本控制流实际上早在20多年前就出现在数据库管理系统(DBMS)中了，但是有些人还是把它称为一个全新的计算模型[8,17]。在本文中，我们分别对这两种模型进行了描述和对比。此外，我们还对比了这两种系统的性能和开发的复杂度。最后，我们定义了由多个计算任务组成的benchmark，并在一个MR的开源版本和两个并行DBMS系统上进行了测试。针对每个计算任务，我们在一个100节点的集群上进行了多个并行度上的系统性能测试。我们得到了一些有趣的结论。尽管并行DBMS的数据加载过程和执行调优所花费的时间比MR系统要长，但是这些DBMS系统所表现出的执行性能却比MR系统好很多。我们对产生这种显著的性能差异的原因进行了思考，并考虑了那些未来系统所需要从这两种架构学习的地方。 read more
Computing Systems Design Reading List(zz)
2011年10月4日阅读(430)

from：http://gost.isi.edu/555/fall2011/11-readinglist.html

August 26, 2010
CSci 555 / Fall 2011

Except as noted, all items on the reading list are required reading. Chapters may be found in the textbook. Chapter numbers are from the 4th edition, followed by the chapter numbers in the 3rd edition if known in square brackets. The dates following the section headings are the weeks when these papers will be discussed. You should read the papers before the lectures in the given week. Papers are linked from the number preceding the reference in this reading list. For papers retrived as scanned PDF files, the password is cs555. read more
MapReduce：一个巨大的倒退(II)(zz)
2011年10月3日阅读(514)

zz from：http://databasecolumn.vertica.com/database-innovation/mapreduce-ii/

MapReduce: A major step backwards 的续

[Note: Although the system attributes this post to a single author, it was written by David J. DeWitt and Michael Stonebraker]

Last week’s MapReduce post attracted tens of thousands of readers and generated many comments, almost all of them attacking our critique. Just to let you know, we don’t hold a personal grudge against MapReduce. MapReduce didn’t kill our dog, steal our car, or try and date our daughters. read more
Avro: 大数据的数据格式(zz)
2011年10月1日阅读(3,556)

Monday, November 2nd, 2009 at 8:00 am by Doug Cutting, filed under data collection, general, hadoop, mapreduce.
王旭 [ gnawux(at)gmail.com , @gnawux, http://wangxu.me ]于11月2-3日译

译注：Doug Cutting 是 Hadoop 的大佬，目前在 Cloudera，Avro 基本上将成为未来 Hadoop 的数据描述和 RPC 的基础，今天看到这篇，就立刻翻译了，水平有限且译的比较草，请见谅，且欢迎纠错。 read more
Ganglia：分布式监控系统
2011年9月30日阅读(784)

转载请注明作者：phylips@bmy 2011-9-30

出处：http://duanple.blog.163.com/blog/static/70971767201183092413177/

1 环境安装配置
 1.1 依赖软件下载

Ganglia是伯克利开发的一个集群监控软件。可以监视和显示集群中的节点的各种状态信息，比如如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，同时可以将历史数据以曲线方式通过php页面呈现。 read more
The 5 Minute Rule and the 5 Byte Rule(译)
2011年9月24日阅读(1,106)

作者：Jim Gray, Franco Putzolu. 1986

原文：http://www.hpl.hp.com/techreports/tandem/TR-86.1.pdf

译者：phylips@bmy 2011-9-24

译文：http://duanple.blog.163.com/blog/static/70971767201182422254593/

[序：关于5分钟法则，想必很多人都听说过。而5字节法则则没有那么耳熟能详了。这两个法则是Jim Gray和Franco Putzolu 在1986年的文章<< The 5 minute rule for trading memory for disc accesses and the 5 byte rule for trading memory for CPU time >>中提出的，也就是本篇译文所针对的内容。根据文章名称也可以看出，5分钟法则是用来衡量内存与磁盘的，而5字节法则则是在内存和CPU之间的权衡。在该论文发表10年后的1997年，Jim Gray和Goetz Graefe 又在<<The Five-Minute Rule Ten Years Later and Other Computer Storage Rules of Thumb>>中对该法则进行了重新的审视。 read more
Twitter开源实时计算系统Storm
2011年9月20日阅读(594)

项目主页：https://github.com/nathanmarz/storm

具有下关键属性：

1.广泛的应用场景：可以用于消息处理和数据库更新(stream processing)，可以针对数据流进行持续查询并将结果推送给客户端(continuous computation)，可以用来并行化重量级查询操作比如一个实时的搜索请求(distributed RPC)等等方面。 read more
MapReduce和并行数据库，朋友还是敌人？(zz)
2011年9月17日阅读(713)

from：http://www.programmer.com.cn/4014/

文/何伟平

在2010年1月的ACM上，有两篇文章非常吸引人注意。一篇文章是Google的Jeffrey Dean、Sanjay Ghemawat发表的标题为《MapReduce:一个灵活的数据库处理工具》，另一篇文章是Michael Stonebraker、Daniel Abadi、David J. DeWitt、Sam Madden、Erik Paulson、Andrew Pavlo、Alexander、Rasin等人发表的《MapReduce和并行数据库：是朋友还是敌人？》。这两篇文章让我想起去年初Michael Stonebraker等人就MapReduce发表的一些评论而导致了一次MapReduce和数据库系统的大辩论。那篇文章的标题是《MapReduce：一个巨大的倒退》。这次辩论双方则准备了丰富的实践和实验案例。看上去更加有趣也更加有说服力。 read more
HDFS scalability:the limits to growth(译)
2011年9月17日阅读(733)

作者：Konstantin Shvachko 2010-4

原文：http://www.aosabook.org/en/hdfs.html

译者：phylips@bmy 2011-9-17

译文：http://duanple.blog.163.com/blog/static/70971767201181745539637/

[

序：如果说The Hadoop Distributed File System对应了GFS，那么这篇实际上有些与Case Study GFS: Evolution on Fast-forward相似，只是更专注于可扩展性。本文除了提供了关于HDFS可扩展性的各方面的深入思考外，其中使用的估算方法，测试方法及关于可扩展性的思考方法也是非常值得的。 read more
The Hadoop Distributed File System(译)
2011年9月17日阅读(2,533)

作者：Konstantin Shvachko, Hairong Kuang etc. 2010-10

原文：http://storageconference.org/2010/Papers/MSST/Shvachko.pdf

原文：http://www.aosabook.org/en/hdfs.html

译者：phylips@bmy 2011-9-12

译文：http://duanple.blog.163.com/blog/static/70971767201181744412133/

摘要

Hadoop分布式文件系统(HDFS)设计用于为大规模数据集提供可靠性的存储，同时能够将数据集以高带宽的传输速率推送给用户应用程序。在一个大规模集群上，将会有数千台的服务器同时负责数据存储及执行用户应用级的计算任务。通过将存储和计算分布到很多个服务器上，使得存储和计算资源可以在保持低成本的情况下根据数据规模按需增长。在本文中，我们会描述下HDFS的架构，以及我们在Yahoo!使用HDFS来管理25PB的企业数据的相关经验。 read more
Yahoo!的分布式数据平台PNUTS简介及感悟(zz)
2011年9月16日阅读(733)

from：http://timyang.net/architecture/yahoo-pnuts/

在分布式领域有个CAP理论(Brewer’s CAP Theorem) ，是说Consistency(一致性), Availability(可用性), Partition tolerance(分布) 三部分在系统实现只可同时满足二点，没法三者兼顾。所以架构设计师不要把精力浪费在如何设计能满足三者的完美分布式系统，而是应该进行取舍，选取最适合应用需求的其中之二。比如MySQL 5.1 cluster设计前显然不知道有CAP理论这样的经验, 所以MySQL cluster表面看来尽管可提供所有分布式特性，但实际大部分场合都无法提供稳定可靠的服务。 read more
HPCC Systems
2011年9月14日阅读(364)

http://hpccsystems.com/
Apache Hadoop Goes Realtime at Facebook(译)
2011年9月12日阅读(575)

作者：Dhruba BOrthakur & Joydeep Sen Sarma etc. Facebook Inc 2011-6

原文：http://wenku.baidu.com/view/5b1f48ef0975f46527d3e18b.html

译者：phylips@bmy 2011-9-11

出处：http://duanple.blog.163.com/blog/static/7097176720118121573597/

摘要

Facebook最近部署了Facebook Messages，这是它的首个构建于Apache Hadoop平台上的user-facing应用。使用构建于Hadoop之上的类数据库层Apach HBase来对每天数十亿的消息信息进行处理支持。这篇论文描述了Facebook在众多系统中(比如Apache Cassandra，Voldemort)最终选择了Hadoop和HBase的原因，并讨论了应用程序在一致性、可用性、分区容忍性、数据模型及可扩展性上的需求。我们还会探讨一下为了让Hadoop成为一个更有效的实时性系统所做的那些改进，在配置系统过程中所做的那些权衡，以及这种基于Hadoop的解决方案与Facebook和很多其他互联网公司在很多应用程序中采用的那种分片(sharded)MySQL数据库模式相比所具有的优势。我们还会讨论各种设计选择的背后动机，我们在日常工作中面临的挑战，一些未来的还在开发中的功能和改进。我们提供的这些关于部署中的各种观点可以为那些正在考虑使用基于Hadoop的解决方案取代传统分片RDBMS部署的公司，提供一种参考性的模型。 read more
Apache Hadoop 0.23
2011年9月1日阅读(521)

http://www.slideshare.net/hortonworks/apache-hadoop-023

HDFS Federation http://www.hortonworks.com/an-introduction-to-hdfs-federation/

Next Generation of Apache Hadoop MapReduce http://www.slideshare.net/hortonworks/nextgen-apache-hadoop-mapreduce

HDFS High Availablity https://issues.apache.org/jira/browse/HDFS-1623 read more
HIVE RCFile高效存储结构(zz)
2011年8月30日阅读(845)

from：http://cloud.csdn.net/a/20110429/296900.html

本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在 MapReduce环境下的大规模数据分析中扮演重要角色。

Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和处理，经过语句解析和转换，最终生成基于Hadoop的MapReduce任务，通过执行这些任务完成数据处理。图1显示了Hive数据仓库的系统结构。 read more
The Anatomy of Hadoop IO Pipeline(译)
2011年8月29日阅读(719)

作者：Owen Omalley 2009-8-27

原文：http://developer.yahoo.com/blogs/hadoop/posts/2009/08/the_anatomy_of_hadoop_io_pipel/

译者：phylips@bmy 2011-8-28

出处：http://duanple.blog.163.com/blog/static/70971767201172902737677/

引言

在一个典型的Hadoop MapReduce job中，通常是从HDFS上读取输入文件。为减少文件大小，文件数据通常是压缩过的，因此读取之后需要进行解压，之后得到序列化字节串，在传递给用户定义的Map函数之前再将这些字节串转换为java对象。输出则刚好是一个反向的过程，输出记录会被序列化，压缩，最终传送到HDFS上。这看起来很简单，但是因为下面的一些原因，这两个过程实际上是很复杂的： read more
LevelDB：实现(译)
2011年8月18日阅读(1,259)

作者：Jeff Dean, Sanjay Ghemawat

原文：http://leveldb.googlecode.com/svn/trunk/doc/impl.html

译者：phylips@bmy 2011-8-17

译文：http://duanple.blog.163.com/blog/static/70971767201171821616246/

Files

LevelDB的实现本质上类似于Bigtable中的tablet(参见Bigtable论文5.3节)。但是，与论文中的具体的文件组织方式稍有不同，解释如下： read more
LevelDB：一个快速轻量级的key-value存储库(译)
2011年8月17日阅读(1,376)

作者：Jeff Dean, Sanjay Ghemawat

原文：http://leveldb.googlecode.com/svn/trunk/doc/index.html

译者：phylips@bmy 2011-8-16

译文：http://duanple.blog.163.com/blog/static/70971767201171705113636/

LevelDB库提供了一种永久性的key value存储。Key和value都是任意的字节序列。在这个key value存储系统中，key按照用户声明的比较函数有序排列。 read more
Hadoop公平调度器指南(zz)
2011年8月13日阅读(683)

zz from：http://www.cnblogs.com/spork/archive/2010/04/02/1703428.html

最近看到调度器这一块，发现Hadoop官方文档中有关公平调度器（Fair Scheduler Guide）和容量调度器（Capacity Scheduler Guide）部分的文档还没有汉化，Google了下也未发现有相关汉化，So，我班门弄斧，抛砖引玉一下了。这里先奉上公平调度器的中文版。由于我一直用Cloudera Hadoop 0.20.1+152的版本，所以这个汉化也是基于里面的文档来的。目前官方上的公平调度器部分已经改动了：
取消了配额文件，参数全部设置到mapred-site.xml。任务抢占特性也取消了。增删了一些参数。但是基本的原理和设置还是一样的，该文档仍适用于新版的公平调度器。 read more
Case Study GFS：Evolution on Fast-forward(译)
2011年8月6日阅读(718)

作者：Kirk McKusick & Sean Quinlan 2009-8

原文：http://queue.acm.org/detail.cfm?id=1594206

译者：phylips@bmy 2011-8

译文： http://duanple.blog.163.com/blog/static/7097176720117611327190/

[一个Kirk McKusick 与Sean Quinlan之间关于GFS的起源和演化的讨论] read more

Older Posts

Newer Posts