分布式系统, 转载 下一代Apache Hadoop MapReduce(zz) 2011年7月31日 阅读(462) 英文原文:http://developer.yahoo.com/blogs/hadoop/posts/2011/02/mapreduce-nextgen/ zz from:http://blog.nosqlfan.com/html/1451.html 注:随着Hadoop的流行,其局限性也在一定程度体现,各大公司也在hadoop上做了很多修改,下面是雅虎对Hadoop下一代的重构计划。原文地址:http://sandaobusi.javaeye.com/blog/941740 read more
分布式系统 数据科学家的七个秘密武器(zz) 2011年7月31日 阅读(413) zz from:http://www.dbthink.com/?p=666&cpage=1#comment-596 source : The Seven Secrets of Successful Data Scientists 1.选择合适的工具,杀鸡不要随便用牛刀,打蚊子毋需高射炮. 2.对所有的数据做压缩, 原因, 我们处在一个IO密集的世界 3.拆分,拆分,还是拆分 4.对数据取样,不是每次分析都需要使用全量数据 5.拿来主义,善于从开源社区,寻找已经解决好的方案,毋需不断重建轮子 6.Data Locality, 让数据毋需移动即可进行分析 7.不要过于聪明,专注于解决你实际面临的困难,不要去解决太过于遥远的问题 read more
分布式系统, 转载 Base: 一种Acid的替代方案(zz) 2011年7月31日 阅读(714) zz from:http://www.dbthink.com/?p=483 本文是Ebay的架构师在2008年发表给ACM的文章,是一篇解释BASE原则,或者说最终一致性的经典文章. 文中Dan讨论了BASE与ACID原则的基本差异, 以及如何设计大型网站以满足不断增长的可伸缩性需求,期间如何对业务做调整与折衷. 以及一些具体的折衷技术的介绍. read more