机器学习和生物信息学实验室联盟

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 2288|回复: 1
打印 上一主题 下一主题

Spark学习

[复制链接]
跳转到指定楼层
楼主
发表于 2014-7-31 23:11:44 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 Mr.Vege求好运 于 2014-8-8 21:07 编辑

今天读了RDD的论文,感觉还是论文更靠谱,解释的也比较清楚。
参考了陈超的Spark视频以及伯克利实验室的论文中的内容写了一些RDD的相关知识。
总的来说,就一个感受:everything is possible
这个帖子会开成一个系列,争取一周添加一篇新的PDF作为扩展。
另外感觉最适合Spark的语言依旧是scala,没有之一,学习的最好方式其实还是读源代码。
==================分割线===========================
2014.07.31 RDD基础知识



=================分割线=============================
说好的一周一篇,好像有点久....

2014.08.08  
学习了Spark简单API应用,啃Matei Alexandru Zaharia的博士论文《An Architecture for Fast and General Data Processing on Large Clusters》ing,看完之后再来补心得

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享
回复

使用道具 举报

沙发
发表于 2014-8-18 13:51:35 | 只看该作者
@zouquan
spark目前在机器学习领域的四层架构:
ML Optimizer => MLI => MLlib => Spark
Spark: cluster computing system designed for iterative computaJon
MLlib: ML library in Spark
MLI: API for data preprocessin, feature extraction and algorithm development
ML Optimizer: automates model selection
其中, MLI与ML Optimizer对数据预处理及ml模型优化 做的很到位
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

机器学习和生物信息学实验室联盟  

GMT+8, 2024-5-19 14:11 , Processed in 0.199657 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表