Spark大数据处理与分析

Spark大数据处理与分析

作者:雷擎

出版社:清华大学

出版年:2020年9月

ISBN:9787302560777

所属分类:历史文化

书刊介绍

《Spark大数据处理与分析》内容简介

本书是Spark技术入门的基础类书籍,通过本书的学习实验可以牢固掌握Spark编程技术的基本概念、原理和编程方法,能够进行应用程序的实际开发。
雷擎,对外经济贸易大学教师,中国科学院计算技术研究所博士。

作品目录

内容简介
前言
第1章:Spark生态环境
1.1、平台设计
1.2、Spark简介
1.3、虚拟环境
1.4、HBase技术
1.5、环境部署
1.6、小结
第2章:理解Spark
2.1、数据处理
2.2、认识RDD
2.3、操作RDD
2.4、Scala编程
2.5、案例分析
2.6、小结
第3章:键值对与分区
3.1、键值对RDD
3.2、分区和洗牌
3.3、共享变量
3.4、Scala高级语法
3.5、案例分析
3.6、小结
第4章:关系型数据处理
4.1、Spark
SQL概述
4.2、结构化数据操作
4.3、案例分析
4.4、小结
第5章:数据流的操作
5.1、处理范例
5.2、理解时间
5.3、离散化流
5.4、离散流的操作
5.5、结构化流
5.6、案例分析
5.7、小结
第6章:分布式的图处理
6.1、理解图的概念
6.2、图并行系统
6.3、一个例子
6.4、创建和探索图
6.5、图运算符
6.6、Pregel
6.7、案例分析
6.8、小结
第7章:机器学习
7.1、MLlib
7.2、数据类型
7.3、统计基础
7.4、算法概述
7.5、交叉验证
7.6、机器学习管道
7.7、实例分析
7.8、小结
第8章:特征工程
8.1、特征提取
8.2、特征转换
8.3、特征选择
8.4、局部敏感哈希
8.5、小结
第9章:算法汇总
9.1、决策树和集成树
9.2、分类和回归
9.3、聚集
9.4、小结
第10章:Spark应用程序
10.1、SparkContext与SparkSession
10.2、构建应用
10.3、部署应用
10.4、小结
第11章:监视和优化
11.1、工作原理
11.2、洗牌机制
11.3、内存管理
11.4、优化策略
11.5、最佳实践
11.6、案例分析
11.7、小结
参考文献

相关推荐

微信二维码