机器学习和生物信息学实验室联盟

标题: 我理解的Map-Reduce [打印本页]

作者: zouquan 时间: 2012-2-23 22:09
标题: 我理解的Map-Reduce
整个Map和Reduce就是以<Key,Value>对作为参数进行传递。
Map函数把输入文件读入，转化成<K,V>对。然后hadoop自动进行sort，对同一K的V合并到一个List中。最后Reduce对每一个K整理。

不知道对不对？文瑞来补充：）

作者: Fth-Hokage 时间: 2012-2-26 15:02
嗯邹老师说的挺全面，简单的来说分为四个阶段：InputFormat/MapTask/Shuffle/ReduceTask
InputFormat: 输入文件 --> 转化 --> <K, V>
MapTask : <K, V> --> map处理 --> <K', V'>
Shuffle : <K', V'> --> Sort and Group --><K', List(V')>
ReduceTask: <K', List(V')> --> Reduce处理 --> <K'', V''>
从头至尾是以<K, V>为参数在传递~
他的心脏Shuffle完成的Sort and Group主要用到的数据结构/算法是：
环状队列，小根堆 / 快排，堆排序

作者: zouquan 时间: 2012-2-26 17:29

Fth-Hokage 发表于 2012-2-26 15:02
嗯邹老师说的挺全面，简单的来说分为四个阶段：InputFormat/MapTask/Shuffle/ReduceTask
InputFormat: ...

very goooooooooood

看过hadoop源码的人果然不一般~~~

作者: Fth-Hokage 时间: 2012-2-27 09:32
哈哈也没有邹老师我也就懂这些再往深了去估计也不行了

作者: xmubingo 时间: 2012-2-27 09:47

Fth-Hokage 发表于 2012-2-27 09:32
哈哈也没有邹老师我也就懂这些再往深了去估计也不行了

再深入，就出现ruidoop。

作者: Fth-Hokage 时间: 2012-2-27 12:10

xmubingo 发表于 2012-2-27 09:47
再深入，就出现ruidoop。

咱们一起研发一个brdoop

欢迎光临机器学习和生物信息学实验室联盟 (http://123.57.240.48/)