吾爱编程

标题: 全面掌握Spark性能优化炼成真正的Spark高手 Spark高级视频教程 spark性能优化 [打印本页]

作者: admin    时间: 2017-11-10 23:08
标题: 全面掌握Spark性能优化炼成真正的Spark高手 Spark高级视频教程 spark性能优化
课程目标
课程简介
我们谈大数据性能调优,到底在谈什么,它的本质是什么,以及 Spark 在性能调优部份的要点,这两点让在进入性能调优之前都是一个至关重要的问题,它的本质限制了我们调优到底要达到一个什么样的目标或者说我们是从什么本源上进行调优。希望我们的课程能为同学们带出以下的启发:
大数据性能调优的本质
编程的时候发现一个惊人的规律,软件是不存在的!所有编程高手级别的人无论做什么类型的编程,最终思考的都是硬件方面的问题!最终思考都是在一秒、一毫秒、甚至一纳秒到底是如何运行的,并且基于此进行算法实现和性能调优,最后都是回到了硬件!
在大数据性能的调优,它的本质是硬件的调优!即基于 CPU(计算)、Memory(存储)、IO-Disk/ Network(数据交互) 基础上构建算法和性能调优!我们在计算的时候,数据肯定是存储在内存中的。磁盘IO怎么去处理和网络IO怎么去优化。

Spark 性能调优要点分析
在大数据性能本质的思路上,我们应该需要在那些方面进行调优呢?比如:
大数据最怕的就是数据本地性(内存中)和数据倾斜或者叫数据分布不均衡、数据转输,这个是所有分布式系统的问题!数据倾斜其实是跟你的业务紧密相关的。所以调优 Spark 的重点一定是在数据本地性和数据倾斜入手。
这是一张来至于官方的经典资源使用流程图,这里有三大组件,第一部份是 Driver 部份,第二就是具体处理数据的部份,第三就是资源管理部份。这一张图中间有一个过程,这表示在程序运行之前向资源管理器申请资源。在实际生产环境中,Cluster Manager 一般都是 Yarn 的 ResourceManager,Driver 会向 ResourceManager 申请计算资源(一般情况下都是在发生计算之前一次性进行申请请求),分配的计算资源就是 CPU Core 和 Memory,我们具体的 Job 里的 Task 就是基于这些分配的内存和 Cores 构建的线程池来运行 Tasks 的。




作者: bzadmin    时间: 2017-12-29 16:48

作者: huxingxing    时间: 2018-1-10 20:39
规范健康快乐就
作者: gaochao    时间: 2018-8-13 17:44
不管你信不信,反正我是信了。支持吾爱编程网!
作者: Breeze    时间: 2018-8-13 18:57
看帖看完了至少要顶一下,还可以加入到淘帖哦!支持吾爱编程网!
作者: coffeebeansyy    时间: 2018-8-30 15:54
看了LZ的帖子,我只想说一句很好很强大!支持吾爱编程网!
作者: FunnyKing    时间: 2018-12-9 13:54
cufctucutcr7xuitcttutx
作者: 漫游者    时间: 2019-1-1 09:28
不管你信不信,反正我是信了。支持吾爱编程网!
作者: db198905    时间: 2019-4-3 17:09
啥也不说了,楼主就是给力!支持吾爱编程网!
作者: 小兵123    时间: 2019-4-3 18:37
全面掌握Spark性能优化炼成真正的Spark高手 S
作者: ljhaabb    时间: 2019-12-14 08:37
看了LZ的帖子,我只想说一句很好很强大!支持吾爱编程网!
作者: zuibunan    时间: 2019-12-14 13:17
看了LZ的帖子,我只想说一句很好很强大!支持吾爱编程网!




欢迎光临 吾爱编程 (http://www.52pg.net/) Powered by Discuz! X3.2