pandas数据处理与分析

pandas数据处理与分析

作者:耿远昊

出版社:人民邮电

出版年:2022年7月

ISBN:9787115583659

所属分类:成功励志

书刊介绍

《pandas数据处理与分析》内容简介

本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。本书共包含13章,第一部分介绍NumPy和pandas的基本内容;第二部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色,每章的最后一节为习题,同时每章包含许多即时性的练习(练一练)。读者可通过这些练习将对数据科学的宏观认识运用到实践中。
本书适合具有一定Python编程基础、想要使用pandas进行数据处理与分析的数据科学领域的从业者或研究人员阅读。
耿远昊,威斯康星大学麦迪逊分校统计学硕士在读,Datawhale成员,“Joyful Pandas”开源项目作者。pandas贡献者,活跃于pandas开源社区,主要贡献涉及漏洞修复、功能实现与性能优化等方面,对pandas在数据处理与分析中的应用有丰富经验。

作品目录

内容提要



资源与支持
彩  图
第一部分
基础知识
第1章:预备知识
1.1、Python基础
1.2、NumPy基础
1.3、习题
第2章:pandas基础
2.1、文件的读取和写入
2.2、基本数据结构
2.3、常用基本函数
2.4、窗口
2.5、习题
第二部分
4类操作
第3章:索引
3.1、单级索引
3.2、多级索引
3.3、常用索引方法
3.4、习题
第4章:分组
4.1、分组模式及其对象
4.2、聚合函数
4.3、变换和过滤
4.4、跨列分组
4.5、习题
第5章:变形
5.1、长宽表的变形
5.2、其他变形方法
5.3、习题
第6章:连接
6.1、关系连接
6.2、其他连接
6.3、习题
第三部分
4类数据
第7章:缺失数据
7.1、缺失值的统计和删除
7.2、缺失值的填充和插值
7.3、Nullable类型
7.4、习题
第8章:文本数据
8.1、str对象
8.2、正则表达式基础
8.3、文本处理的5类操作
8.4、其他字符串方法
8.5、习题
第9章:分类数据
9.1、cat对象
9.2、有序类别
9.3、区间类别
9.4、习题
第10章:时间序列数据
10.1、时间戳
10.2、时间差
10.3、日期偏置
10.4、时间序列操作
10.5、习题
第四部分
进阶实战
第11章:数据观测
11.1、可视化方法
11.2、数据观测方法
11.3、习题
第12章:特征工程
12.1、单特征构造
12.2、多特征构造
12.3、特征选择
12.4、习题
第13章:性能优化
13.1、pandasic代码要义
13.2、多进程加速
13.3、利用Cython加速
13.4、利用Numba加速
13.5、习题

相关推荐

微信二维码