Python网络爬虫与数据分析从入门到实践

Python网络爬虫与数据分析从入门到实践

作者:马国俊

出版社:清华大学

出版年:2023年3月

ISBN:9787302627814

所属分类:保健养生

书刊介绍

《Python网络爬虫与数据分析从入门到实践》内容简介

本书从初学者的视角出发,以案例实操为核心,系统地介绍网络爬虫的原理、工具使用与爬取技术,并详细讲解数据分析的各种技巧。本书主要内容包括:Python基础语法,数据分析工具NumPy、Pandas、Matplotlib的使用,网络爬虫库Urllib、BeautifulSoup、Scrapy,正则表达式在网络爬虫中的应用,数据预处理与数据分析方法、中文文本处理、文本向量化技术,以及机器学习算法在数据分析中的应用。书中还给出了大量案例和项目,可以帮助读者快速上手,提高实用技能。
本书内容丰富,注重实操,适用于网络爬虫岗位、数据分析岗位的初级工程师和各类工程技术人员,还可作为高校经济、管理、人文社科、大数据等专业的教学用书。
马国俊,计算专业硕士,教授,从业20余年,主要从事大数据技术的教学、项目开发与研究工作,先后在国内外刊物发表学术论文40余篇,获取软件著作权3项;主持、参与各类项目5项,获得奖项若干。

作品目录

内容简介
前言
第1章:Python基础语法
1.1、搭建Python开发环境
1.2、Python语法入门
1.3、函数及用法
1.4、函数的特殊操作
1.5、Python的数据结构
1.6、动手练习
第2章:数据科学库之NumPy
2.1、NumPy库中的ndarray对象
2.2、NumPy常见操作
2.3、索引和切片操作
2.4、动手练习
第3章:数据处理库之Pandas
3.1、Series对象及操作
3.2、DataFrame对象及操作
3.3、DataFrame同各种文件交互
3.4、动手练习
第4章:数据可视化库之Matplotlib
4.1、绘制各类图形
4.2、设置坐标
4.3、增加可视化美观效果
4.4、设置子图效果
4.5、高级图表的绘制方式
4.6、动手练习
第5章:数据获取之网络爬虫
5.1、和爬虫有关的HTTP协议
5.2、通过Urllib库获取网页信息
5.3、通过BeautifulSoup提取页面信息
5.4、通过正则表达式截取信息
5.5、动手练习
第6章:用Scrapy框架爬取数据
6.1、Scrapy框架概述
6.2、简单爬虫范例
6.3、复杂爬虫范例
6.4、动手练习
第7章:数据预处理与数据分析方法
7.1、基于Python的数据预处理
7.2、Python与MySQL数据库的交互
7.3、描述性统计
7.4、概率分析方法与推断统计
7.5、基于时间序列的统计方法
7.6、动手练习
第8章:中文文本处理
8.1、中文文本处理概述
8.2、基于结巴库的文本处理
8.3、引入自定义信息
8.4、基于NLTK库的文本处理
8.5、动手练习
第9章:文本向量化技术
9.1、文本向量化技术概述
9.2、基于Gensim的文本向量化分析
9.3、向量化技术的使用场景
9.4、动手练习
第10章:基于机器学习的分析方法
10.1、基础知识
10.2、线性回归分析方法
10.3、岭回归和Lasso回归分析法
10.4、基于机器学习的分类分析方法
10.5、基于手写体数字识别的分类范例
10.6、动手练习
第11章:电影评论数据分析案例
11.1、用Scrapy爬取电影评论数据
11.2、对爬取的电影评论数据进行分析
11.3、动手练习
第12章:二手房数据分析案例
12.1、用Scrapy爬取二手房数据
12.2、数据预处理与数据分析
12.3、动手练习
第13章:通过电子邮件发送数据分析结果
13.1、实现发送电子邮件的功能
13.2、以电子邮件的形式发送RSI指标图
13.3、以电子邮件的形式发送基于RSI指标的买卖点
13.4、动手练习

相关推荐

微信二维码