分布式系统 【google论文三】MapReduce:简化大集群上的数据处理(下) 2010年10月2日 阅读(465) 转载请注明:http://duanple.blog.163.com/blog/static/70971767201092673696/ 作者 phylips@bmy 5.性能 在本节中我们将通过运行在大集群的机器上的两个计算来测量MapReduce的性能。一个计算在大概1TB的数据中搜索给定模式的文本。另一个计算对接近1T的数据进行排序。 read more
分布式系统 【google论文三】MapReduce:简化大集群上的数据处理(上) 2010年10月2日 阅读(1,724) 转载请注明:http://duanple.blog.163.com/blog/static/709717672010923203501/ 作者 phylips@bmy 摘要: MapReduce是一个编程模型以及用来处理和生成大数据集的一个相关实现。用户通过描述一个map函数,处理一组key/value对进而生成一组key/value对的中间结果,然后描述一个reduce函数,将具有相同key的中间结果进行归并。正如论文所表明的,很多现实世界中的任务都可以用这个模型来表达。 read more