精通Scrapy网络爬虫

精通Scrapy网络爬虫

作者:刘硕

出版社:清华大学

出版年:2017年10月

ISBN:9787302484936

所属分类:文学理论

书刊介绍

《精通Scrapy网络爬虫》内容简介

本书深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧。全书共14章,从逻辑上可分为基础篇和高级篇两部分,基础篇重点介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解爬虫的高级话题,如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等,并配合项目案例讲解,包括供练习使用的网站,以及京东、知乎、豆瓣、360爬虫案例等。
本书案例丰富,注重实践,代码注释详尽,适合有一定Python语言基础,想学习编写复杂网络爬虫的读者使用。
刘硕:硕士,曾就职于知名外企,从事一线开发工作10年,目前主要从事Python开发与教学工作,在慕课网开设有多门Python课程,深受学员欢迎。

作品目录

内容简介
作者简介
前言
第1章:初识Scrapy
1.1、网络爬虫是什么
1.2、Scrapy简介及安装
1.3、编写第一个Scrapy爬虫
1.4、本章小结
第2章:编写Spider
2.1、Scrapy框架结构及工作原理
2.2、Request和Response对象
2.3、Spider开发流程
2.4、本章小结
第3章:使用Selector提取数据
3.1、Selector对象
3.2、Response内置Selector
3.3、XPath
3.4、CSS选择器
3.5、本章小结
第4章:使用Item封装数据
4.1、Item和Field
4.2、拓展Item子类
4.3、Field元数据
4.4、本章小结
第5章:使用Item
Pipeline处理数据
5.1、Item
Pipeline
5.2、更多例子
5.3、本章小结
第6章:使用LinkExtractor提取链接
6.1、使用LinkExtractor
6.2、描述提取规则
6.3、本章小结
第7章:使用Exporter导出数据
7.1、指定如何导出数据
7.2、添加导出数据格式
7.3、本章小结
第8章:项目练习
8.1、项目需求
8.2、页面分析
8.3、编码实现
8.4、本章小结
第9章:下载文件和图片
9.1、FilesPipeline和ImagesPipeline
9.2、项目实战:爬取matplotlib例子源码文件
9.3、项目实战:下载360图片
9.4、本章小结
第10章:模拟登录
10.1、登录实质
10.2、Scrapy模拟登录
10.3、识别验证码
10.4、Cookie登录
10.5、本章小结
第11章:爬取动态页面
11.1、Splash渲染引擎
11.2、在Scrapy中使用Splash
11.3、项目实战:爬取toscrape中的名人名言
11.4、项目实战:爬取京东商城中的书籍信息
11.5、本章小结
第12章:存入数据库
12.1、SQLite
12.2、MySQL
12.3、MongoDB
12.4、Redis
12.5、本章小结
第13章:使用HTTP代理
13.1、HttpProxyMiddleware
13.2、使用多个代理
13.3、获取免费代理
13.4、实现随机代理
13.5、项目实战:爬取豆瓣电影信息
13.6、本章小结
第14章:分布式爬取
14.1、Redis的使用
14.2、scrapy-redis源码分析
14.3、使用scrapy-redis进行分布式爬取
14.4、本章小结

相关推荐

微信二维码