今天读了RDD的论文,感觉还是论文更靠谱,解释的也比较清楚。
参考了陈超的Spark视频以及伯克利实验室的论文中的内容写了一些RDD的相关知识。
总的来说,就一个感受:everything is possible
这个帖子会开成一个系列,争取一周添加一篇新的PDF作为扩展。
另外感觉最适合Spark的语言依旧是scala,没有之一,学习的最好方式其实还是读源代码。
==================分割线===========================
2014.07.31 RDD基础知识
2014.08.08
学习了Spark简单API应用,啃Matei Alexandru Zaharia的博士论文《An Architecture for Fast and General Data Processing on Large Clusters》ing,看完之后再来补心得
作者: Fth-Hokage 时间: 2014-8-18 13:51 @zouquan
spark目前在机器学习领域的四层架构:
ML Optimizer => MLI => MLlib => Spark Spark: cluster computing system designed for iterative computaJon MLlib: ML library in Spark MLI: API for data preprocessin, feature extraction and algorithm development ML Optimizer: automates model selection
其中, MLI与ML Optimizer对数据预处理及ml模型优化 做的很到位