转载请注明作者:phylips@bmy 2011-9-30
出处:http://duanple.blog.163.com/blog/static/70971767201183092413177/
Ganglia是伯克利开发的一个集群监控软件。可以监视和显示集群中的节点的各种状态信息,比如如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,同时可以将历史数据以曲线方式通过php页面呈现。
银河里的星星
转载请注明作者:phylips@bmy 2011-9-30
出处:http://duanple.blog.163.com/blog/static/70971767201183092413177/
Ganglia是伯克利开发的一个集群监控软件。可以监视和显示集群中的节点的各种状态信息,比如如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,同时可以将历史数据以曲线方式通过php页面呈现。 read more
作者:Jim Gray, Franco Putzolu. 1986
原文:http://www.hpl.hp.com/techreports/tandem/TR-86.1.pdf
译者:phylips@bmy 2011-9-24
译文:http://duanple.blog.163.com/blog/static/70971767201182422254593/
[序:关于5分钟法则,想必很多人都听说过。而5字节法则则没有那么耳熟能详了。这两个法则是Jim Gray和Franco Putzolu 在1986年的文章<< The 5 minute rule for trading memory for disc accesses and the 5 byte rule for trading memory for CPU time >>中提出的,也就是本篇译文所针对的内容。根据文章名称也可以看出,5分钟法则是用来衡量内存与磁盘的,而5字节法则则是在内存和CPU之间的权衡。在该论文发表10年后的1997年,Jim Gray和Goetz Graefe 又在<<The Five-Minute Rule Ten Years Later and Other Computer Storage Rules of Thumb>>中对该法则进行了重新的审视。 read more
项目主页:https://github.com/nathanmarz/storm
具有下关键属性:
1.广泛的应用场景:可以用于消息处理和数据库更新(stream processing),可以针对数据流进行持续查询并将结果推送给客户端(continuous computation),可以用来并行化重量级查询操作比如一个实时的搜索请求(distributed RPC)等等方面。 read more
from:http://www.programmer.com.cn/4014/
文/何伟平
在2010年1月的ACM上,有两篇文章非常吸引人注意。一篇文章是Google的Jeffrey Dean、Sanjay Ghemawat发表的标题为《MapReduce:一个灵活的数据库处理工具》,另一篇文章是Michael Stonebraker、Daniel Abadi、David J. DeWitt、Sam Madden、Erik Paulson、Andrew Pavlo、Alexander、Rasin等人发表的《MapReduce和并行数据库:是朋友还是敌人?》。这两篇文章让我想起去年初Michael Stonebraker等人就MapReduce发表的一些评论而导致了一次MapReduce和数据库系统的大辩论。那篇文章的标题是《MapReduce:一个巨大的倒退》。这次辩论双方则准备了丰富的实践和实验案例。看上去更加有趣也更加有说服力。 read more
作者:Konstantin Shvachko 2010-4
原文:http://www.aosabook.org/en/hdfs.html
译者:phylips@bmy 2011-9-17
译文:http://duanple.blog.163.com/blog/static/70971767201181745539637/
[
序:如果说The Hadoop Distributed File System对应了GFS,那么这篇实际上有些与Case Study GFS: Evolution on Fast-forward相似,只是更专注于可扩展性。本文除了提供了关于HDFS可扩展性的各方面的深入思考外,其中使用的估算方法,测试方法及关于可扩展性的思考方法也是非常值得的。 read more
作者:Konstantin Shvachko, Hairong Kuang etc. 2010-10
原文:http://storageconference.org/2010/Papers/MSST/Shvachko.pdf
原文:http://www.aosabook.org/en/hdfs.html
译者:phylips@bmy 2011-9-12
译文:http://duanple.blog.163.com/blog/static/70971767201181744412133/
摘要
Hadoop分布式文件系统(HDFS)设计用于为大规模数据集提供可靠性的存储,同时能够将数据集以高带宽的传输速率推送给用户应用程序。在一个大规模集群上,将会有数千台的服务器同时负责数据存储及执行用户应用级的计算任务。通过将存储和计算分布到很多个服务器上,使得存储和计算资源可以在保持低成本的情况下根据数据规模按需增长。在本文中,我们会描述下HDFS的架构,以及我们在Yahoo!使用HDFS来管理25PB的企业数据的相关经验。 read more
from:http://timyang.net/architecture/yahoo-pnuts/
在分布式领域有个CAP理论(Brewer’s CAP Theorem) ,是说Consistency(一致性), Availability(可用性), Partition tolerance(分布) 三部分在系统实现只可同时满足二点,没法三者兼顾。所以架构设计师不要把精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍,选取最适合应用需求的其中之二。比如MySQL 5.1 cluster设计前显然不知道有CAP理论这样的经验, 所以MySQL cluster表面看来尽管可提供所有分布式特性,但实际大部分场合都无法提供稳定可靠的服务。 read more
作者:Dhruba BOrthakur & Joydeep Sen Sarma etc. Facebook Inc 2011-6
原文:http://wenku.baidu.com/view/5b1f48ef0975f46527d3e18b.html
译者:phylips@bmy 2011-9-11
出处:http://duanple.blog.163.com/blog/static/7097176720118121573597/
摘要
Facebook最近部署了Facebook Messages,这是它的首个构建于Apache Hadoop平台上的user-facing应用。使用构建于Hadoop之上的类数据库层Apach HBase来对每天数十亿的消息信息进行处理支持。这篇论文描述了Facebook在众多系统中(比如Apache Cassandra,Voldemort)最终选择了Hadoop和HBase的原因,并讨论了应用程序在一致性、可用性、分区容忍性、数据模型及可扩展性上的需求。我们还会探讨一下为了让Hadoop成为一个更有效的实时性系统所做的那些改进,在配置系统过程中所做的那些权衡,以及这种基于Hadoop的解决方案与Facebook和很多其他互联网公司在很多应用程序中采用的那种分片(sharded)MySQL数据库模式相比所具有的优势。我们还会讨论各种设计选择的背后动机,我们在日常工作中面临的挑战,一些未来的还在开发中的功能和改进。我们提供的这些关于部署中的各种观点可以为那些正在考虑使用基于Hadoop的解决方案取代传统分片RDBMS部署的公司,提供一种参考性的模型。 read more
大悲咒是观世音菩萨《大悲心陀罗尼经》中的主要部分,共有八十四句。其全名为《千手千眼观世音菩萨广大圆满无碍大悲心陀罗尼经大悲神咒》。大悲咒得名的由来是:有一次佛陀告诉阿难尊者说:“如是神咒,有种种名:一名广大圆满,一名无碍大悲,一名救苦陀罗尼,一名延寿陀罗尼,一名灭恶趣陀罗尼,一名破恶业障陀罗尼,一名满愿陀罗尼,一名随心自在陀罗尼,一名速超十地陀罗尼。”观世音被称为千手千眼观世音菩萨的由来是:有一次他曾经在千光王静住如来住所时,静住如来特为他说了“广大圆满无碍大悲陀罗尼”。并且对他说:“善男子!汝当持此心咒,普为未来恶世一切众生作大利乐。”据经的记载:当时观世音菩萨听了此咒后,即由初地证至第八地——不动地。于是发出誓愿说:“设我当来之世能利乐一切众生者,令我即时身生千手千眼具足。”如此发愿后,果真顿时身生千手千眼,并且十方大地为之震动,十方诸佛亦都放出无量光明,遍照十方的无边世界。 read more
http://www.slideshare.net/hortonworks/apache-hadoop-023
HDFS Federation http://www.hortonworks.com/an-introduction-to-hdfs-federation/
Next Generation of Apache Hadoop MapReduce http://www.slideshare.net/hortonworks/nextgen-apache-hadoop-mapreduce
HDFS High Availablity https://issues.apache.org/jira/browse/HDFS-1623 read more