https://www.jianshu.com/p/b8841a8925fb
spark性能优化
1.诊断内存的消耗
2. 高性能序列化类库
3. 优化数据结构
4. 对多次使用的rdd进行持久化或者checkpoint
5. 使用序列化的持久化级别
6. java虚拟机垃圾回收调优
7. 提高并行度
8. 广播共享数据
9. 数据本地化
10. reducebykey和groupbykey
11. shuffle性能调优