|
嗯 邹老师说的挺全面,简单的来说分为四个阶段:InputFormat/MapTask/Shuffle/ReduceTask
InputFormat: 输入文件 --> 转化 --> <K, V>
MapTask : <K, V> --> map处理 --> <K', V'>
Shuffle : <K', V'> --> Sort and Group --><K', List(V')>
ReduceTask: <K', List(V')> --> Reduce处理 --> <K'', V''>
从头至尾是以<K, V>为参数在传递~
他的心脏Shuffle完成的Sort and Group主要用到的数据结构/算法是:
环状队列,小根堆 / 快排,堆排序
|
|