Apache Spark源码剖析

Apache Spark源码剖析

作者:许鹏

出版社:电子工业

出版年:2015年3月

ISBN:9787121254208

所属分类:教辅教材

书刊介绍

《Apache Spark源码剖析》内容简介

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。
《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。
《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。
许鹏:长期致力于电信领域和互联网的软件研发,在数据处理方面积累了大量经验,对系统的可扩展性、可靠性方面进行过深入学习和研究。因此,累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核,作者也曾进行过深入的分析。

作品目录

前言
第一部分
Spark概述
第1章:初识Spark
1.1、大数据和Spark
1.2、与Spark的第一次亲密接触
第二部分
Spark核心概念
第2章:Spark整体框架
2.1、编程模型
2.2、运行框架
2.3、源码阅读环境准备
第3章:SparkContext初始化
3.1、spark-shell
3.2、SparkContext的初始化综述
3.3、SparkRepl综述
第4章:Spark作业提交
4.1、作业提交
4.2、作业执行
4.3、存储机制
第5章:部署方式分析
5.1、部署模型
5.2、单机模式local
5.3、伪集群部署local-cluster
5.4、原生集群Standalone
Cluster
5.5、SparkOn
YARN
第三部分
Spark
Lib
第6章:SparkStreaming
6.1、SparkStreaming整体架构
6.2、SparkStreaming执行过程
6.3、窗口操作
6.4、容错性分析
6.5、SparkStreaming
vs.Storm
6.6、应用举例
第7章:SQL
7.1、SQL语句的通用执行过程分析
7.2、SQLOn
Spark的实现分析
7.3、Parquet文件和JSON数据集
7.4、Hive简介
7.5、HiveQLOn
Spark详解
第8章:GraphX
8.1、GraphX简介
8.2、分布式图计算处理技术介绍
8.3、Pregel计算模型
8.4、GraphX图计算框架实现分析
8.5、PageRank
第9章:MLLib
9.1、线性回归
9.2、线性回归的代码实现
9.3、分类算法
9.4、拟牛顿法
9.5、MLLib与其他应用模块间的整合
第四部分
附录
附录A
Spark源码调试
A.3.1、导入Spark源码
附录B
源码阅读技巧

相关推荐

微信二维码