Python网络爬虫从入门到实践

Python网络爬虫从入门到实践

作者:唐松陈智铨 编著

出版社:机械工业

出版年:2017年9月

ISBN:9787111578413

所属分类:经济金融

书刊介绍

《Python网络爬虫从入门到实践》内容简介

本书将介绍如何使用Python编写网络爬虫程序获取互联网上的大数据。
本书包括三部分内容:基础部分、进阶部分和项目实践。
基础部分(第1~6章)主要介绍爬虫的三个步骤(获取网页、解析网页和存储数据),并通过诸多示例的讲解,让读者从基础内容开始系统性地学习爬虫技术,并在实践中提升Python爬虫水平。
进阶部分(第7~12章)包括多线程的并发和并行爬虫、分布式爬虫、更换IP等,帮助读者进一步提升爬虫水平。
项目实践部分(第13~16章)使用本书介绍的爬虫技术对几个真实的网站进行抓取,让读者能在读完本书后根据自己的需求写出爬虫程序。
无论是否有编程基础,只要是对爬虫技术感兴趣的读者,本书就能带领读者从入门到进阶,再到实战,一步步了解爬虫,终写出自己的爬虫程序。
唐松,陈智铨 编著。

作品目录

推荐序一
推荐序二
前言一
前言二
第1章:网络爬虫入门
1.1、为什么要学网络爬虫
1.2、网络爬虫是否合法
1.3、网络爬虫的基本议题
第2章:编写第一个网络爬虫
2.1、搭建Python平台
2.2、Python使用入门
2.3、编写第一个简单的爬虫
2.4、Python实践:基础巩固
第3章:静态网页抓取
3.1、安装Requests
3.2、获取响应内容
3.3、定制Requests
3.4、Requests爬虫实践:TOP250电影数据
第4章:动态网页抓取
4.1、动态抓取的实例
4.2、解析真实地址抓取
4.3、通过Selenium模拟浏览器抓取
4.4、Selenium爬虫实践:深圳短租数据
第5章:解析网页
5.1、使用正则表达式解析网页
5.2、使用BeautifulSoup解析网页
5.3、使用lxml解析网页
5.4、总结
5.5、BeautifulSoup爬虫实践:房屋价格数据
第6章:数据存储
6.1、基本存储:存储至TXT或CSV
6.2、存储至MySQL数据库
6.3、存储至MongoDB数据库
6.4、总结
6.5、MongoDB爬虫实践:虎扑论坛
第7章:提升爬虫的速度
7.1、并发和并行,同步和异步
7.2、多线程爬虫
7.3、多进程爬虫
7.4、多协程爬虫
7.5、总结
第8章:反爬虫问题
8.1、为什么会被反爬虫
8.2、反爬虫的方式有哪些
8.3、如何“反反爬虫”
8.4、总结
第9章:解决中文乱码
9.1、什么是字符编码
9.2、Python的字符编码
9.3、解决中文编码问题
9.4、总结
第10章:登录与验证码处理
10.1、处理登录表单
10.2、验证码的处理
10.3、总结
第11章:服务器采集
11.1、为什么使用服务器采集
11.2、使用动态IP拨号服务器
11.3、使用Tor代理服务器
第12章:分布式爬虫
12.1、安装Redis
12.2、修改Redis配置
12.3、Redis分布式爬虫实践
12.4、总结
第13章:爬虫实践一:维基百科
13.1、项目描述
13.2、网站分析
13.3、项目实施:深度优先的递归爬虫
13.4、项目进阶:广度优先的多线程爬虫
13.5、总结
第14章:爬虫实践二:知乎Live
14.1、项目描述
14.2、网站分析
14.3、项目实施
14.4、总结
第15章:爬虫实践三:百度地图API
15.1、项目描述
15.2、获取API秘钥
15.3、项目实施
15.4、总结
第16章:爬虫实践四:餐厅点评
16.1、项目描述
16.2、网站分析
16.3、项目实施
16.4、总结

相关推荐

微信二维码