书刊介绍
《Python机器学习与可视化分析实战》内容简介
使用机器学习进行数据可视化分析是近年来研究的热点内容之一。本书使用z新的Python作为机器学习的基本语言和工具,从搭建环境开始,逐步深入到理论、代码、应用实践中去,从而使初学者能够独立使用机器学习完成数据分析。本书配套示例代码、PPT课件和答疑服务。
本书分为10章,内容包括:机器学习与Python开发环境、用于数据处理及可视化展示的Python类库、NBA赛季数据可视化分析、聚类算法与可视化实战、线性回归与可视化实战、逻辑回归与可视化实战、决策树算法与可视化实战、基于深度学习的酒店评论情感分类实战、基于深度学习的手写体图像识别实战、TensorFlow Datasets和TensorBoard训练可视化。
本书内容详尽、示例丰富,是机器学习初学者的入门书和必备的参考书,也可作为高等院校计算机及大数据相关专业的教材使用。
王晓华,计算机专业讲师,长期讲授面向对象程序设计、数据结构、Hadoop程序设计等研究生和本科生相关课程;主要研究方向为云计算、数据挖掘。曾主持和参与多项国家和省级科研课题,独立科研项目获省级成果认定,发表过多篇论文,拥有一项国家专利。著有《Spark MLlib机器学习实践》《TensorFlow深度学习应用实践》《OpenCV TensorFlow深度学习与计算机视觉实战》《TensorFlow2.0卷积神经网络实战》《TensorFlow Keras自然语言处理实战》等图书。作品目录
内容简介
前言
第1章:机器学习与Python开发环境
1.1、机器学习概述
1.1.1、机器学习的前世今生
1.1.2、机器学习的研究现状与方向
1.1.3、机器学习之美——数据的可视化
1.2、Python的基本安装和用法
1.2.1、Anaconda的下载与安装
注意
1.2.2、Python编译器PyCharm的安装
1.2.3、使用Python实现softmax函数计算
1.3、Python常用类库中的threading
1.3.1、threading模块中的Thread类
1.3.2、threading中Lock类
1.3.3、threading中Join类
1.4、本章小结
第2章:用于数据处理及可视化展示的Python类库
2.1、从小例子起步——NumPy的初步使用
2.1.1、数据的矩阵化
2.1.2、数据分析
2.1.3、基于统计分析的数据处理
2.2、图形化数据处理——Matplotlib包的使用
2.2.1、差异的可视化
2.2.2、坐标图的展示
2.2.3、大数据的可视化展示
2.3、常用的统计分析方法——相似度计算
2.3.1、欧几里得相似度计算
2.3.2、余弦相似度计算
2.3.3、欧几里得相似度与余弦相似度的比较
2.4、数据的统计学可视化展示
2.4.1、数据的四分位数
2.4.2、数据的四分位数示例
2.4.3、数据的标准化
2.4.4、数据的平行化处理
2.4.5、热力图——属性相关性检测
2.5、Python分析某地降雨量变化规律
2.5.1、不同年份的相同月份统计
2.5.2、不同月份之间的增减程度比较
2.5.3、每月降雨是否相关
2.6、本章小结
第3章:NBA赛季数据可视化分析
3.1、基于球员薪资的数据分析
3.1.1、关于球员薪资的一些基本分析
3.1.2、关于球员RPM相关性的分析
3.1.3、关于球员RPM数据的分析
3.2、Seaborn常用的数据可视化方法
3.2.1、关于RPM、薪资和年龄的一元可视化分析
3.2.2、关于RPM、薪资、年龄的二元可视化分析
3.2.3、关于衍生变量的可视化分析
3.2.4、NBA球队数据的分析结果
3.3、NBA赛季数据分析
3.3.1、关于赛季发展的一些基本分析
3.3.2、群星璀璨的NBA
3.3.3、关于球员高级数据的一些基本分析
3.4、
本章小结
第4章:聚类算法与可视化实战
4.1、聚类的定义
4.1.1、衡量距离的方法
4.1.2、聚类算法介绍
4.2、经典K-means聚类算法实战
4.2.1、经典K-means算法的Python实现
4.2.2、基于Iris数据集的可视化分析
4.2.3、投某音还是投某宝?基于K-means的广告效果聚类分析
4.3、基于密度的聚类算法DBSCAN
4.3.1、DBSCAN算法原理与Python实现
4.3.2、基于sklearn的DBSCAN实战
4.3.3、DBSCAN的优缺点比较
4.4、基于层次的聚类算法
4.4.1、基于层次算法的原理
4.4.2、Agglomerative算法与示例
4.5、本章小结
第5章:线性回归与可视化实战
5.1、线性回归的基本内容与Python实现
5.1.1、什么是线性回归
5.1.2、最小二乘法详解
5.1.3、道士下山的故事——随机梯度下降算法
5.1.4、基于一元线性回归的比萨饼价格计算
5.1.5、线性回归的评价指标
5.1.6、线性回归应用
5.2、多元线性回归实战
5.2.1、多元线性回归的基本内容
5.2.2、多元线性回归的Python实现
5.2.3、基于多元线性回归的房价预测实战
5.3、本章小结
第6章:逻辑回归与可视化实战
6.1、逻辑回归的基本内容与Python实现
6.1.1、逻辑回归是一个分类任务
6.1.2、逻辑回归的基本内容
6.1.3、链式求导法则
6.1.4、逻辑回归中的Sigmoid函数
6.2、基于逻辑回归的鸢尾花(Iris)分类
6.2.1、鸢尾花数据集简介与基础可视化分析
6.2.2、鸢尾花数据集进阶可视化分析
6.2.3、基于鸢尾花数据集的数据挖掘
6.2.4、基于线性回归与K-means的鸢尾花数据集分类
6.2.5、基于逻辑回归的鸢尾花数据集分类
6.3、本章小结
第7章:决策树算法与可视化实战
7.1、水晶球的秘密
7.1.1、决策树
7.1.2、决策树的算法基础——信息熵
7.1.3、决策树的算法基础——ID3算法
7.2、决策树背后的信息——信息熵与交叉熵
7.2.1、交叉熵基本原理详解
7.2.2、交叉熵的表述
7.3、决策树实战——分类与回归树
7.3.1、分类树与回归树的区别
7.3.2、基于分类树的鸢尾花分类实战
7.3.2、基于回归树的波士顿房价预测
7.4、基于随机森林的信用卡违约实战
7.4.1、随机森林的基本内容
7.4.2、随机森林与决策树的可视化比较
7.4.3、基于随机森林的信用卡违约检测
7.5、本章小结
第8章:基于深度学习的酒店评论情感分类实战
8.1、深度学习
8.1.1、何为深度学习
8.1.2、与传统的“浅层学习”的区别
8.2、酒店评论情感分类——深度学习入门
说明
8.3、深度学习的流程、应用场景和模型分类
8.3.1、深度学习的流程与应用场景
8.3.2、深度学习的模型分类
8.3、本章小结
第9章:基于深度学习的手写体图像识别实战
9.1、卷积运算的基本概念
9.1.1、卷积运算
9.1.2、TensorFlow中卷积函数的实现
9.1.3、池化运算
9.1.4、softmax激活函数
9.1.5、卷积神经网络原理
9.2、MNIST手写体识别
9.2.1、MNIST数据集
9.2.2、MNIST数据集特征和标签
9.2.3、卷积神经网络编程实战:MNIST数据集
9.3、基于多层感知机的手写体识别
9.3.1、多层感知机的原理与实现
9.3.2、多层感知机的激活函数
9.4、消除过拟合——正则化与dropout
9.4.1、正则化与dropout概述
9.4.2、使用防过拟合处理的多层感知机
9.4.3、Keras创建多层感知机的细节问题
9.5、本章小结
第10章:TensorFlow
Datasets和TensorBoard训练可视化
10.1、TensorFlow
Datasets简介
10.1.1、TensorFlow
Datasets的安装
10.1.2、TensorFlow
Datasets的使用
10.2、TensorFlow
Datasets数据集的使用——FashionMNIST
10.2.1、FashionMNIST数据集的下载与展示
10.2.2、模型的建立与训练
10.3、使用Keras对FashionMNIST数据集进行处理
10.3.1、获取数据集
10.3.2、数据集的调整
10.3.3、使用Python类函数建立模型
10.3.4、Model的查看和参数打印
10.3.5、模型的训练和评估
10.4、使用TensorBoard可视化训练过程
10.4.1、TensorBoard的文件夹的设置
10.4.2、TensorBoard的显式调用
10.4.3、TensorBoard的使用
10.5、本章小结