吾爱编程

标题: 【基础】2016徐老师大数据之Spark视频教程 33课时 [打印本页]

作者: admin    时间: 2017-10-8 12:02
标题: 【基础】2016徐老师大数据之Spark视频教程 33课时

【基础】2016徐老师大数据之Spark视频教程 33课时

课程介绍:

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。课程讲的比较基础,适合边学边动手实践。

课程时长:

总共33课时,两个星期可以掌握。

适合学员:

需要一定的Hadoop、java、scala、linux基础。

课程目录:

01.Spark简介 00:03:19

02.Spark预编译版本下载安装与启动 00:15:49

03.Spark体验shell操作与wc操作与RDD介绍 00:20:40

04.Spark通过Maven进行源码编译安装 00:25:24

05.Spark搭建Maven本地仓库服务器 00:23:39

06.Spark通过本地Maven仓库服务器进行编译以及进行描述文件的设置 00:08:25

07.Spark官方doc的宏观描述和优势说明 00:10:29

08.Spark独立集群模式部署和启动 00:32:06

09.Spark Master和Worker的webui查看以及FIFO作业调度讲解 00:09:43

10.Spark独立集群模式端口修改 00:11:16

11.Spark shell应用于addFile 00:24:37

12.Spark程序build的宏观介绍 00:03:24

13.通过交互模式初始化Maven项目 00:11:10

14.通过参数指定方式直接初始化Maven项目 00:04:19

15.准备java源文件到自己的源码包中 00:04:43

16.设置pom.xml文件依赖插件以及与自由仓库目录树的对应关系 00:08:46

17.使用mvn package指令进行编译并进行打包与自由仓库目录树的对应关系 1 00:05:09

18.使用java指令添加spark类库运行Spark程序 00:05:21

19.使用maven的exec执行插件运行java程序 00:05:44

20.配置eclipse的maven插件使用本地maven仓库服务器 00:04:38

21.eclipse之下maven项目的配置编译运行 00:16:33

22.eclipse之Scala插件的卸载与安装 00:05:02

23.eclipse下构建Scala程序以及运行 00:02:45

24.通过Scalac命令手动编译scala程序并执行 00:13:16

25.命令行下通过maven编译运行Scala程序 00:10:15

26.eclipse下通过maven-scala插件进行Spark(Scala版)应用的开发 00:05:59

27.创建SparkContext简介与环境准备 00:04:59

28.使用Scala创建SparkContext对象以及conf配置和调试 00:11:32

29.使用Java创建SparkContext对象以及元数据介绍 00:11:30

30.使用Java创建Rdd对象并在eclipse运行 00:04:40

31.使用Scala创建Rdd对象并在eclipse调试分布式应用 00:17:09

32.addFile方法的使用与常见错误 00:21:53

33.flatMap函数处理csv文件进行扁平化RDD处理 00:21:01

课程下载:







欢迎光临 吾爱编程 (http://www.52pg.net/) Powered by Discuz! X3.2