机器学习和生物信息学实验室联盟

标题: Spark学习 [打印本页]

作者: Mr.Vege求好运    时间: 2014-7-31 23:11
标题: Spark学习
本帖最后由 Mr.Vege求好运 于 2014-8-8 21:07 编辑

今天读了RDD的论文,感觉还是论文更靠谱,解释的也比较清楚。
参考了陈超的Spark视频以及伯克利实验室的论文中的内容写了一些RDD的相关知识。
总的来说,就一个感受:everything is possible
这个帖子会开成一个系列,争取一周添加一篇新的PDF作为扩展。
另外感觉最适合Spark的语言依旧是scala,没有之一,学习的最好方式其实还是读源代码。
==================分割线===========================
2014.07.31 RDD基础知识



=================分割线=============================
说好的一周一篇,好像有点久....

2014.08.08  
学习了Spark简单API应用,啃Matei Alexandru Zaharia的博士论文《An Architecture for Fast and General Data Processing on Large Clusters》ing,看完之后再来补心得


作者: Fth-Hokage    时间: 2014-8-18 13:51
@zouquan
spark目前在机器学习领域的四层架构:
ML Optimizer => MLI => MLlib => Spark
Spark: cluster computing system designed for iterative computaJon
MLlib: ML library in Spark
MLI: API for data preprocessin, feature extraction and algorithm development
ML Optimizer: automates model selection
其中, MLI与ML Optimizer对数据预处理及ml模型优化 做的很到位




欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2