Spark快速大数据分析

Spark快速大数据分析

作者:[美] Holden Karau[美] Andy Konwinski[美] Patrick Wendell 等

出版社:人民邮电

出版年:2021年5月

ISBN:9787115403094

所属分类:网络科技

书刊介绍

《Spark快速大数据分析》内容简介

本书由Spark及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用Spark收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。
Holden Karau是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。
Andy Konwinski是Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。
Patrick Wendell是Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。
Matei Zaharia是Databricks的CTO,同时也是Apache Spark项目发起人以及Apache基金会副主席。

作品目录

推荐序
译者序

前言
第1章:Spark
数据分析导论
1.1、Spark是什么
1.2、一个大一统的软件栈
1.3、Spark的用户和用途
1.4、Spark简史
1.5、Spark的版本和发布
1.6、Spark的存储层次
第2章:Spark
下载与入门
2.1、下载Spark
2.2、Spark中Python和Scala的shell
2.3、Spark核心概念简介
2.4、独立应用
2.5、总结
第3章:RDD
编程
3.1、RDD基础
3.2、创建RDD
3.3、RDD操作
3.4、向Spark传递函数
3.5、常见的转化操作和行动操作
3.6、持久化(缓存)
3.7、总结
第4章:键值对操作
4.1、动机
4.2、创建Pair
RDD
4.3、Pair
RDD的转化操作
4.4、Pair
RDD的行动操作
4.5、数据分区(进阶)
4.6、总结
第5章:数据读取与保存
5.1、动机
5.2、文件格式
5.3、文件系统
5.4、Spark
SQL中的结构化数据
5.5、数据库
5.6、总结
第6章:Spark
编程进阶
6.1、简介
6.2、累加器
6.3、广播变量
6.4、基于分区进行操作
6.5、与外部程序间的管道
6.6、数值RDD的操作
6.7、总结
第7章:在集群上运行
Spark
7.1、简介
7.2、Spark运行时架构
7.3、使用spark-submit部署应用
7.4、打包代码与依赖
7.5、Spark应用内与应用间调度
7.6、集群管理器
7.7、选择合适的集群管理器
7.8、总结
第8章:Spark
调优与调试
8.1、使用SparkConf配置Spark
8.2、Spark执行的组成部分:作业、任务和步骤
8.3、查找信息
8.4、关键性能考量
8.5、总结
第9章:Spark
SQL
9.1、连接Spark
SQL
9.2、在应用中使用Spark
SQL
9.3、读取和存储数据
9.4、JDBC/ODBC服务器
9.5、用户自定义函数
9.6、Spark
SQL性能
9.7、总结
第10章:Spark
Streaming
10.1、一个简单的例子
10.2、架构与抽象
10.3、转化操作
10.4、输出操作
10.5、输入源
10.6、24/7不间断运行
10.7、Streaming用户界面
10.8、性能考量
10.9、总结
第11章:基于MLlib的机器学习
11.1、概述
11.2、系统要求
11.3、机器学习基础
11.4、数据类型
11.5、算法
11.6、一些提示与性能考量
11.7、流水线API
11.8、总结

相关推荐

微信二维码