Python网络爬虫从入门到实践(第2版)

Python网络爬虫从入门到实践(第2版)

作者:唐松

出版社:机械工业

出版年:2019年6月

ISBN:9787111626879

所属分类:散文随笔

书刊介绍

《Python网络爬虫从入门到实践(第2版)》内容简介

使用Python编写网络爬虫程序获取互联网上的大数据是当前的热门专题。本书内容包括三部分:基础部分、进阶部分和项目实践。基础部分(第1~7章)主要介绍爬虫的三个步骤——获取网页、解析网页和存储数据,并通过诸多示例的讲解,让读者能够从基础内容开始系统性地学习爬虫技术,并在实践中提升Python爬虫水平。进阶部分(第8~13章)包括多线程的并发和并行爬虫、分布式爬虫、更换IP等,帮助读者进一步提升爬虫水平。项目实践部分(第14~17章)使用本书介绍的爬虫技术对几个真实的网站进行抓取,让读者能在读完本书后根据自己的需求写出爬虫程序。
唐松,康奈尔大学信息科学研究生,高考获全额奖学金就读于香港中文大学计量营销和金融学,毕业后与IBM合作A100项目,为美的、中信等公司实践大数据落地项目,热衷将数据科学与商业结合应用。

作品目录

前言
第1章:网络爬虫入门
1.1、为什么要学网络爬虫
1.2、网络爬虫是否合法
1.3、网络爬虫的基本议题
第2章:编写第一个网络爬虫
2.1、搭建Python平台
2.2、Python使用入门
2.3、编写第一个简单的爬虫
2.4、Python实践:基础巩固
第3章:静态网页抓取
3.1、安装Requests
3.2、获取响应内容
3.3、定制Requests
3.4、Requests爬虫实践:TOP250电影数据
第4章:动态网页抓取
4.1、动态抓取的实例
4.2、解析真实地址抓取
4.3、通过Selenium模拟浏览器抓取
4.4、Selenium爬虫实践:深圳短租数据
第5章:解析网页
5.1、使用正则表达式解析网页
5.2、使用BeautifulSoup解析网页
5.3、使用lxml解析网页
5.4、总结
5.5、BeautifulSoup爬虫实践:房屋价格数据
第6章:数据存储
6.1、基本存储:存储至TXT或CSV
6.2、存储至MySQL数据库
6.3、存储至MongoDB数据库
6.4、总结
6.5、MongoDB爬虫实践:虎扑论坛
第7章:Scrapy框架
7.1、Scrapy是什么
7.2、安装Scrapy
7.3、通过Scrapy抓取博客
7.4、Scrapy爬虫实践:财经新闻数据
第8章:提升爬虫的速度
8.1、并发和并行,同步和异步
8.2、多线程爬虫
8.3、多进程爬虫
8.4、多协程爬虫
8.5、总结
第9章:反爬虫问题
9.1、为什么会被反爬虫
9.2、反爬虫的方式有哪些
9.3、如何“反反爬虫”
9.4、总结
第10章:解决中文乱码
10.1、什么是字符编码
10.2、Python的字符编码
10.3、解决中文编码问题
10.4、总结
第11章:登录与验证码处理
11.1、处理登录表单
11.2、验证码的处理
11.3、总结
第12章:服务器采集
12.1、为什么使用服务器采集
12.2、使用动态IP拨号服务器
12.3、使用Tor代理服务器
第13章:分布式爬虫
13.1、安装Redis
13.2、修改Redis配置
13.3、Redis分布式爬虫实践
13.4、总结
第14章:爬虫实践一:维基百科
14.1、项目描述
14.2、网站分析
14.3、项目实施:深度优先的递归爬虫
14.4、项目进阶:广度优先的多线程爬虫
14.5、总结
第15章:爬虫实践二:知乎Live
15.1、项目描述
15.2、网站分析
15.3、项目实施
15.4、总结
第16章:爬虫实践三:百度地图API
16.1、项目描述
16.2、获取API秘钥
16.3、项目实施
16.4、总结
第17章:爬虫实践四:畅销书籍
17.1、项目描述
17.2、网站分析
17.3、项目实施
17.4、总结

相关推荐

微信二维码