A Comparision of Approaches to Large-Scale Data An
2011年10月7日 阅读(510)
作者:Andrew Pavlo &Erik Paulson etc. 2009-6
原文:http://db.csail.mit.edu/pubs/benchmarks-sigmod09.pdf
译者:phylips@bmy 2011-10-4
译文:http://duanple.blog.163.com/blog/static/7097176720119701941950/
摘要
使用MapReduce模型进行大规模数据分析目前已成为一个炙手可热的领域而备受关注[17]。尽管该框架的基本控制流实际上早在20多年前就出现在数据库管理系统(DBMS)中了,但是有些人还是把它称为一个全新的计算模型[8,17]。在本文中,我们分别对这两种模型进行了描述和对比。此外,我们还对比了这两种系统的性能和开发的复杂度。最后,我们定义了由多个计算任务组成的benchmark,并在一个MR的开源版本和两个并行DBMS系统上进行了测试。针对每个计算任务,我们在一个100节点的集群上进行了多个并行度上的系统性能测试。我们得到了一些有趣的结论。尽管并行DBMS的数据加载过程和执行调优所花费的时间比MR系统要长,但是这些DBMS系统所表现出的执行性能却比MR系统好很多。我们对产生这种显著的性能差异的原因进行了思考,并考虑了那些未来系统所需要从这两种架构学习的地方。