首页 > 编程笔记 > 其他 > MapReduce之Combiner合并

MapReduce之Combiner合并

时间:2022-07-22

本文章向大家介绍MapReduce之Combiner合并，主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项，具有一定的参考价值，需要的朋友可以参考一下。

Combiner是MR程序中Mapper和Reducer之外的一种组件(本质是一个Reducer类)
Combinr组件的父类就是Reducer
Conbimer只有在驱动类里设置了之后，才会运行

Combiner和Reducer的区别在于运行的位置： map----sort---copy---sort(shuffle阶段)---reduce

==Combiner是在每一个MapTask所在的节点运行
Reducer是接收全局所有Mapper的输出结果==

Combiner的意义就是对每一个MapTask的输出进行局部汇总，以减小网络传输量(减少磁盘IO和网络IO)
Cormbiner能多应用的前提是不能影响最终的业务逻辑，而且，Combiner的输出kv应该跟Reducer的输入kv类型要对应起来。 Combiner用在加减操作的场景，不能用在乘除操作的场景比如：

Combiner既有可能在MapTask端调用： ①每次溢写前会调用Combiner对溢写的数据进行局部合并 ②在merge时，如果溢写的片段数>=3，如果设置了Combiner，Combiner会再次对数据进行Combine！
Combiner既有可能在ReduceTask端调用： ③shuffle线程拷贝多个MapTask同一分区的数据，拷贝后执行merge和sort, 如果数据量过大，需要将部分数据先合并排序后，溢写到磁盘！如果设置了Combiner，Combiner会再次运行！

随机文章

本站知识点必读