机器学习和生物信息学实验室联盟

标题: 我理解的Map-Reduce [打印本页]

作者: zouquan    时间: 2012-2-23 22:09
标题: 我理解的Map-Reduce
整个Map和Reduce就是以<Key,Value>对作为参数进行传递。
Map函数把输入文件读入,转化成<K,V>对。然后hadoop自动进行sort,对同一K的V合并到一个List中。最后Reduce对每一个K整理。

不知道对不对?文瑞来补充:)
作者: Fth-Hokage    时间: 2012-2-26 15:02
嗯 邹老师说的挺全面,简单的来说分为四个阶段:InputFormat/MapTask/Shuffle/ReduceTask
InputFormat:   输入文件 --> 转化 --> <K, V>
MapTask :       <K, V>  --> map处理 --> <K', V'>
Shuffle :         <K', V'> --> Sort and Group --><K', List(V')>
ReduceTask:   <K', List(V')> --> Reduce处理 --> <K'', V''>
从头至尾是以<K, V>为参数在传递~
他的心脏Shuffle完成的Sort and Group主要用到的数据结构/算法是:
环状队列,小根堆 / 快排,堆排序




   
作者: zouquan    时间: 2012-2-26 17:29
Fth-Hokage 发表于 2012-2-26 15:02
嗯 邹老师说的挺全面,简单的来说分为四个阶段:InputFormat/MapTask/Shuffle/ReduceTask
InputFormat:    ...

very goooooooooood

看过hadoop源码的人果然不一般~~~
作者: Fth-Hokage    时间: 2012-2-27 09:32
哈哈 也没有 邹老师 我也就懂这些 再往深了去估计也不行了
作者: xmubingo    时间: 2012-2-27 09:47
Fth-Hokage 发表于 2012-2-27 09:32
哈哈 也没有 邹老师 我也就懂这些 再往深了去估计也不行了

再深入,就出现ruidoop。
作者: Fth-Hokage    时间: 2012-2-27 12:10
xmubingo 发表于 2012-2-27 09:47
再深入,就出现ruidoop。

咱们一起研发一个brdoop




欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2