Spark核心技术与高级应用

Spark核心技术与高级应用

作者:于俊

出版社:机械工业

出版年:2016年1月

ISBN:9787111523543

所属分类:人生哲学

书刊介绍

《Spark核心技术与高级应用》内容简介

本书写作过程中,Spark版本从1.0一直变化到1.5,秉承大道至简的主导思想,我们尽可能地按照1.5版本进行了统筹,希望能抛砖引玉,以个人的一些想法和见解,为读者拓展出更深入、更全面的思路。
作者:于俊等

作品目录

前言
基础篇
第1章:Spark简介
1.1、什么是Spark
1.2、Spark的重要扩展
1.3、本章小结
第2章:Spark部署和运行
2.1、部署准备
2.2、Spark部署
2.3、运行Spark应用程序
2.4、本章小结
第3章:Spark程序开发
3.1、使用Spark
Shell编写程序
3.2、构建Spark的开发环境
3.3、独立应用程序编程
3.4、本章小结
第4章:编程模型
4.1、RDD介绍
4.2、创建RDD
4.3、RDD操作
4.4、共享变量
4.5、本章小结
第5章:作业执行解析
5.1、基本概念
5.2、作业执行流程
5.3、运行时环境
5.4、应用程序运行实例
5.5、本章小结
第6章:Spark
SQL与DataFrame
6.1、概述
6.2、DataFrame
6.3、数据源
6.4、分布式的SQL
Engine
6.5、性能调优
6.6、数据类型
6.7、本章小结
第7章:深入了解Spark
Streaming
7.1、基础知识
7.2、DStream操作
7.3、性能调优
7.4、容错处理
7.5、一个例子
7.6、本章小结
第8章:Spark
MLlib与机器学习
8.1、机器学习概述
8.2、Spark
MLlib介绍
8.3、Spark
MLlib库
8.4、ML库
8.5、本章小结
第9章:GraphX图计算框架与应用
9.1、概述
9.2、Spark
GraphX架构
9.3、GraphX编程
9.4、应用场景
9.5、本章小结
第10章:SparkR(R
on
Spark)
10.1、概述
10.2、安装SparkR
10.3、SparkR的运行与应用示例
10.4、本章小结
实战篇
第11章:大数据分析系统
11.1、背景
11.2、数据格式
11.3、应用架构
11.4、业务实现
11.5、本章小结
第12章:系统资源分析平台
12.1、业务背景
12.2、应用架构
12.3、代码实现
12.4、结果验证
12.5、本章小结
第13章:在Spark上训练LR模型
13.1、逻辑回归简介
13.2、数据格式
13.3、MLlib中LR模型源码介绍
13.4、实现案例
13.5、本章小结
第14章:获取二级邻居关系图
14.1、理解PageRank
14.2、PageRank算法基于Spark的实现
14.3、基于PageRank的二级邻居获取
14.4、本章小结
高级篇
第15章:调度管理
15.1、调度概述
15.2、调度器
15.3、本章小结
第16章:存储管理
16.1、硬件环境
16.2、Storage模块
16.3、Shuffle数据持久化
16.4、本章小结
第17章:监控管理
17.1、Web界面
17.2、Spark
UI历史监控
17.3、监控工具
17.4、本章小结
第18章:性能调优
18.1、文件的优化
18.2、序列化数据
18.3、缓存
18.4、共享变量
18.5、流水线优化
18.6、本章小结
扩展篇
第19章:Spark-jobserver实践
19.1、Spark-jobserver是什么
19.2、编译、部署及体验
19.3、Spark-jobserver程序实战
19.4、使用场景:用户属性分布计算
19.5、本章小结
第20章:Spark
Tachyon实战
20.1、Tachyon文件系统
20.2、Tachyon入门
20.3、容错机制
20.4、本章小结

相关推荐

微信二维码