Spark海量数据处理

Spark海量数据处理

作者:范东来

出版社:人民邮电

出版年:2019年12月

ISBN:9787115507006

所属分类:商业管理

书刊介绍

《Spark海量数据处理》内容简介

本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,层次分明,循序渐进。全书分为3部分,涵盖了技术理论与实战,读者可以从实战中巩固学习到的知识。第一部分主要围绕BDAS(伯克利数据分析栈),不仅介绍了如何开发Spark应用的基础内容,还介绍了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题,此外还介绍了Alluxio系统。第二部分实现了一个企业背景调查系统,比较新颖的是,该系统借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足需求,既是对本书第一部分很好的巩固,又完整呈现了一个实时大数据应用的开发过程。第三部分是对全书的总结和展望。本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。
范东来,北京航空航天大学硕士,泛山科技联合创始人,Spark Contributor、SupersetContributor,架构师,技术图书作者和译者,著有《Hadoop海量数据处理》,译有《解读NoSQL》《NoSQL权威指南》《神经网络算法和实现》《Hadoop深度学习》《精通数据科学算法》等,另译有畅销小说《巧克力时代:因为这是我的血脉》。

作品目录


前言
本书特点
面向读者
阅读方法
勘误和支持
致谢
第一部分
基础篇
第1章:序篇
1.1、Spark与BDAS
1.2、Databricks
1.3、如何通过GitHub向Spark贡献代码
1.4、如何选择Spark编程语言
1.5、函数式编程思想
1.6、小结
第2章:Spark编程
2.1、Spark架构
2.2、Spark
2.x与Spark
3.x
2.3、部署Spark
2.4、RDD与算子
2.5、Spark
Shuffle
2.6、共享变量
2.7、Spark的多语言支持
2.8、Spark性能调优
2.9、使用Jupyter
Notebook基于Spark探索数据:蒙特卡罗方法预测股票价格
2.10、小结
第3章:Spark统一编程接口:DataFrame、Dataset和Spark
SQL
3.1、Catalyst优化器
3.2、DataFrame
API
3.3、Dataset
API
3.4、Spark
SQL
3.5、Google
Dremel与列式存储
3.6、使用Spark
SQL进行数据探索
3.7、小结
第4章:Spark流处理:Spark
Streaming与Structured
Streaming
4.1、一个Spark
Streaming流处理的例子
4.2、消息送达保证
4.3、Google
MillWheel系统和Google
Dataflow模型
4.4、Spark
Streaming
4.5、Structured
Streaming
4.6、流处理技术对比
4.7、小结
第5章:Spark图计算:GraphX
5.1、图模式
5.2、生成图
5.3、图算子
5.4、Pregel
API
5.5、SQL
on
Graph
5.6、n度邻居顶点算法
5.7、小结
第6章:Spark机器学习:MLlib
6.1、机器学习
6.2、Spark
MLlib与Spark
ML
6.3、数据预处理
6.4、分类算法应用
6.5、聚类算法应用
6.6、推荐系统应用
6.7、训练之后
6.8、流式机器学习
6.9、小结
第7章:Spark深度学习:Deeplearning4j
7.1、常见的深度学习框架
7.2、Deeplearning4j
7.3、卷积神经网络
7.4、循环神经网络
7.5、自动编码器
7.6、使用GPU
7.7、小结
第8章:分布式存储:Alluxio
8.1、Alluxio架构
8.2、快速上手Alluxio
8.3、与上层框架集成
8.4、与底层存储系统集成
8.5、如何访问Alluxio
8.6、Alluxio应用案例
8.7、小结
第二部分
应用篇
第9章:企业数据湖与Lambda架构
9.1、数据湖
9.2、Lambda架构
9.3、基于Lambda架构的数据湖分层设计
9.4、Lambda架构的应用
9.5、构建Lambda架构的技术
9.6、小结
第10章:大数据企业动态背景调查平台
10.1、企业背景调查
10.2、基于大数据的企业动态背景调查
10.3、数据采集与数据字典
10.4、企业背景调查平台需求
10.5、企业关联图谱的模式
10.6、传统数据仓库架构
10.7、小结
第11章:平台设计
11.1、平台架构
11.2、物理拓扑
11.3、服务层图数据库设计
11.4、项目规划
11.5、小结
第12章:数据管道层
12.1、安装并配置canal
12.2、实现Kafka生产者
12.3、安装并配置Flume
12.4、小结
第13章:速度层
13.1、速度层输入
13.2、Cypher基础
13.3、生成Cypher语句
13.4、整合Structured
Streaming
13.5、小结
第14章:批处理层
14.1、自融风险监测
14.2、生成主数据集
14.3、用GraphX计算企业自融风险值
14.4、导入HBase
14.5、调度中心
14.6、小结
第15章:服务层与查询层
15.1、不仅仅是合并
15.2、接口开发
15.3、小结
第三部分
总结篇
第16章:总结和展望
16.1、统一的大数据处理接口
16.2、Kappa架构
16.3、大数据处理技术
16.4、Spark未来发展方向

相关推荐

微信二维码