shuffle的关键阶段sort(Map端和Reduce端)源码分析

浅沫记忆

今天小编就为大家分享一篇关于shuffle的关键阶段sort(Map端和Reduce端)源码分析，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧
源码中有这样一段代码
1. map端排序获取的比较器

public rawcomparator getoutputkeycomparator() {
  // 获取mapreduce.job.output.key.comparator.class，必须是rawcomparator类型，如果没设置，是null
  class<? extends rawcomparator> theclass = getclass(
   jobcontext.key_comparator, null, rawcomparator.class);
  // 如果用户自定义了这个参数，那么实例化用户自定义的比较器
  if (theclass != null)
   return reflectionutils.newinstance(theclass, this);
  // 默认情况，用户是没用自定义这个参数
  // 判断map输出的key，是否是writablecomparable的子类
 //  如果是，调用当前类的内部的comparator!
  return writablecomparator.get(getmapoutputkeyclass().assubclass(writablecomparable.class), this);
 }

总结：如何对感兴趣的数据进行排序？
① 数据必须作为key
② 排序是框架自动排序，我们提供基于key的比较器，也就是comparator，必须是rawcomparator类型
a) 自定义类，实现rawcomparator，重写compare()
指定mapreduce.job.output.key.comparator.class为自定义的比较器类型
b）key实现writablecomparable(推荐)
③ 实质都是调用相关的comparato()方法，进行比较
2. reduce端进行分组的比较器

rawcomparator comparator = job.getoutputvaluegroupingcomparator();
// 获取mapreduce.job.output.group.comparator.class，必须是rawcomparator类型
// 如果没用设置，直接获取maptask排序使用的比较器
// 也是比较key
public rawcomparator getoutputvaluegroupingcomparator() {
  class<? extends rawcomparator> theclass = getclass(
   jobcontext.group_comparator_class, null, rawcomparator.class);
  if (theclass == null) {
   return getoutputkeycomparator();
  }
  // 如果设置了，就使用设置的比较器
  return reflectionutils.newinstance(theclass, this);
 }

总结
以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对CodeAE代码之家的支持。如果你想了解更多相关内容请查看下面相关链接
原文链接：https://blog.csdn.net/qq_43193797/article/details/86019761

[Java] shuffle的关键阶段sort(Map端和Reduce端)源码分析

相关帖子

【FAQ】接入HMS Core地图服务过程中常见问题总结

v85.01 鸿蒙内核源码分析(内存池管理) | 如何高效切割合并...

【FAQ】分析服务导出的事件数据和概览页面展示的数据不一致该如何解决？

数据库异常智能分析与诊断

K8s提权之RBAC权限滥用

从这 5 个 DevOps “恐怖故事”，我们能学到什么？

增强分析在百度统计的实践

wps数据分析工具在哪里数据分析工具使用方法

HarmonyOS3.0尝鲜之关键Js Api--ServiceAbility开发

pdf怎么查找关键字快捷键

浅沫记忆 LV3