Python大数据处理库PySpark实战

Python大数据处理库PySpark实战

作者:汪明

出版社:清华大学

出版年:2021年3月

ISBN:9787302575085

所属分类:散文随笔

书刊介绍

《Python大数据处理库PySpark实战》内容简介

我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛,本书正是一本PySpark入门教材,适合有一定Python基础的读者学习使用。
本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。
本书内容全面、示例丰富,可作为广大PySpark入门读者必备的参考书,同时能作为大中专院校师生的教学参考书,也可作为高等院校计算机及相关专业的大数据技术教材使用。
汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。

作品目录

内容简介
前言
本书特点
源码下载
本书运行环境说明
本书读者
本书作者
第1章:大数据时代
1.1、什么是大数据
1.2、大数据下的分析工具
1.3、小结
第2章:大数据的瑞士军刀——Spark
2.1、Hadoop与生态系统
2.2、Spark与Hadoop
2.3、Spark核心概念
2.4、Spark基本操作
2.5、SQL
in
Spark
2.6、Spark与机器学习
2.7、小结
第3章:Spark实战环境设定
3.1、建立Spark环境前提
3.2、一分钟建立Spark环境
3.3、建立Hadoop集群
3.4、安装与配置Spark集群
3.5、安装与配置Hive
3.6、打造交互式Spark环境
3.7、小结
第4章:活用PySpark
4.1、Python语法复习
4.2、用PySpark建立第一个Spark
RDD
4.3、RDD的操作与观察
4.4、共享变数
4.5、DataFrames与Spark
SQL
4.6、撰写第一个Spark程序
4.7、提交你的Spark程序
4.8、小结
第5章:PySpark
ETL实战
5.1、认识资料单元格式
5.2、观察资料
5.3、选择、筛选与聚合
5.4、存储数据
5.5、Spark存储数据到SQL
Server
5.6、小结
第6章:PySpark分布式机器学习
6.1、认识数据格式
6.2、描述统计
6.3、资料清理与变形
6.4、认识Pipeline
6.5、逻辑回归原理与应用
6.6、决策树原理与应用
6.7、小结
第7章:实战:PySpark+Kafka实时项目
7.1、Kafka和Flask环境搭建
7.2、代码实现
7.3、小结

相关推荐

微信二维码