书刊介绍
《Python网络爬虫实战》内容简介
本书从Python的安装开始,详细讲解了Python从简单程序延伸到Python网络爬虫的全过程。本书从实战出发,根据不同的需求选取不同的爬虫,有针对性地讲解了几种Python网络爬虫。本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源代码已上传网盘供读者下载。本书内容丰富,实例典型,实用性强。适合Python网络爬虫初学者、数据分析与挖掘技术初学者,以及高校及培训学校相关专业的师生阅读。
胡松涛,高级工程师,参与多个Linux开源项目,github知名代码分享者,活跃于国内著名的多个开源论坛。出版图书《树莓派开发从零开始学--超好玩的智能小硬件制作书》。作品目录
内容简介
前言
第1章:Python环境配置
1.1、Python简介
1.1.1、Python的历史由来
1.1.2、Python的现状
1.1.3、Python的应用
1.2、Python开发环境配置
1.2.1、Windows下安装Python
1.2.2、Windows下安装配置pip
1.2.3、Linux下安装Python
1.2.4、Linux下安装配置pip
1.2.5、永远的开始:hello
world
1.3、本章小结
第2章:Python基础
2.1、Python变量类型
2.1.1、数字
2.1.2、字符串
2.1.3、列表
2.1.4、元组
2.1.5、字典
2.2、Python语句
2.2.1、条件语句——if
else
2.2.2、有限循环——for
2.2.3、无限循环——while
2.2.4、中断循环——continue、break
2.2.5、异常处理——try
except
2.2.6、导入模块——import
2.3、函数和类
2.3.1、函数
2.3.2、类
2.4、Python代码格式
2.4.1、Python代码缩进
2.4.2、Python命名规则
2.4.3、Python代码注释
2.5、Python调试
2.5.1、Windows下IDLE调试
2.5.2、Linux下pdb调试
2.6、本章小结
第3章:简单的Python脚本
3.1、九九乘法表
3.1.1、Project分析
3.1.2、Project实施
3.2、斐波那契数列
3.2.1、Project分析
3.2.2、Project实施
3.3、概率计算
3.3.1、Project分析
3.3.2、Project实施
3.4、读写文件
3.4.1、Project分析
3.4.2、project实施
3.5、本章小结
第4章:Python爬虫常用模块
4.1、Python标准库之urllib2模块
4.1.1、urllib2请求返回网页
4.1.2、urllib2使用代理访问网页
4.1.3、urllib2修改header
4.2、Python标准库——logging模块
4.2.1、简述logging模块
4.2.2、自定义模块myLog
4.3、其他有用模块
4.3.1、re模块(正则表达式操作)
4.3.2、sys模块(系统参数获取)
4.3.3、time模块(获取时间信息)
4.4、本章小结
第5章:Scrapy爬虫框架
5.1、安装Scrapy
5.1.1、Windows下安装Scrapy环境
5.1.2、Linux下安装Scrapy
5.1.3、vim编辑器
5.2、Scrapy选择器XPath和CSS
5.2.1、XPath选择器
5.2.2、CSS选择器
5.2.3、其他选择器
5.3、Scrapy爬虫实战一:今日影视
5.3.1、创建Scrapy项目
5.3.2、Scrapy文件介绍
5.3.3、Scrapy爬虫编写
5.4、Scrapy爬虫实战二:天气预报
5.4.1、项目准备
5.4.2、创建编辑Scrapy爬虫
5.4.3、数据存储到json
5.4.4、数据存储到MySQL
5.5、Scrapy爬虫实战三:获取代理
5.5.1、项目准备
5.5.2、创建编辑Scrapy爬虫
5.5.3、多个Spider
5.5.4、处理Spider数据
5.6、Scrapy爬虫实战四:糗事百科
5.6.1、目标分析
5.6.2、创建编辑Scrapy爬虫
5.6.3、Scrapy项目中间件——添加headers
5.6.4、Scrapy项目中间件——添加proxy
5.7、scrapy爬虫实战五:爬虫攻防
5.7.1、创建一般爬虫
5.7.2、封锁间隔时间破解
5.7.3、封锁Cookies破解
5.7.4、封锁user-agent破解
5.7.5、封锁IP破解
5.8、本章小结
第6章:Beautiful
Soup爬虫
6.1、安装Beautiful
Soup环境
6.1.1、Windows下安装Beautiful
Soup
6.1.2、Linux下安装Beautiful
Soup
6.1.3、最强大的IDE——Eclipse
6.2、BeautifulSoup解析器
6.2.1、bs4解析器选择
6.2.2、lxml解析器安装
6.2.3、使用bs4过滤器
6.3、bs4爬虫实战一:获取百度贴吧内容
6.3.1、目标分析
6.3.2、项目实施
6.3.3、代码分析
6.3.4、Eclipse调试
6.4、bs4爬虫实战二:获取双色球中奖信息
6.4.1、目标分析
6.4.2、项目实施
6.4.3、保存结果到Excel
6.4.4、代码分析
6.5、bs4爬虫实战三:获取起点小说信息
6.5.1、目标分析
6.5.2、项目实施
6.5.3、保存结果到MySQL
6.5.4、代码分析
6.6、bs4爬虫实战四:获取电影信息
6.6.1、目标分析
6.6.2、项目实施
6.6.3、bs4反爬虫
6.6.4、代码分析
6.7、bs4爬虫实战五:获取音悦台榜单
6.7.1、目标分析
6.7.2、项目实施
6.7.3、代码分析
6.8、本章小结
第7章:Mechanize模拟浏览器
7.1、安装Mechanize模块
7.1.1、Windows下安装Mechanize
7.1.2、Linux下安装Mechanize
7.2、Mechanize测试
7.2.1、Mechanize百度
7.2.2、Mechanize光猫F460、
7.3、Mechanize实站一:获取Modem信息
7.3.1、获取F460数据
7.3.2、代码分析
7.4、Mechanize实战二:获取音悦台公告
7.4.1、登录原理
7.4.2、获取Cookie的方法
7.4.3、获取Cookie
7.4.4、使用Cookie登录获取数据
7.5、本章总结
第8章:Selenium模拟浏览器
8.1、安装Selenium模块
8.1.1、Windows下安装Selenium模块
8.1.2、Linux下安装Selenium模块
8.2、浏览器选择
8.2.1、Webdriver支持列表
8.2.2、Windows下安装PhantomJS
8.2.3、Linux下安装PhantomJS
8.3、Selenium&PhantomJS抓取数据
8.3.1、获取百度搜索结果
8.3.2、获取搜索结果
8.3.3、获取有效数据位置
8.3.4、从位置中获取有效数据
8.4、Selenium&PhantomJS实战一:获取代理
8.4.1、准备环境
8.4.2、爬虫代码
8.4.3、代码解释
8.5、Selenium&PhantomJS实战二:漫画爬虫
8.5.1、准备环境
8.5.2、爬虫代码
8.5.3、代码解释
8.6、本章总结