零基础学Python网络爬虫案例实战全流程详解

零基础学Python网络爬虫案例实战全流程详解

作者:王宇韬吴子湛史靖涵

出版社:机械工业

出版年:2021年6月

ISBN:9787111684749

所属分类:经济金融

书刊介绍

《零基础学Python网络爬虫案例实战全流程详解》内容简介

网络爬虫是当今获取数据不可或缺的重要手段。本书讲解了Python爬虫的进阶理论与技术,帮助读者提升实战水平。
全书共7章。第1~3章为常见反爬机制的应对手段,主要内容包括Cookie模拟登录、多种类型的验证码 识别、Ajax动态请求破解。第4章为手机App内容爬取。第5章和第6章为Scrapy爬虫框架应用。第7章为爬虫云服务器部署。
本书适合有一定Python网络爬虫编程基础的学生或相关从业人员,以及想要在Python网络爬虫开发、不同类型的反爬机制应对、爬虫框架开发、爬虫云端部署等方面进阶提高的读者。
王宇韬 华能贵诚信托金融科技实验室发起人,宾夕法尼亚大学硕士,上海交通大学学士,曾在剑桥大学交流学习,两年内通过CFA3级、FRM2级、AQF。在华能贵诚信托自主研发了舆情监控系统、资金雷达、流程自动化AI系统、机器视频面试系统等;专注于科技在金融领域的应用,编著有《Python金融大数据挖掘与分析全流程详解》和《Python大数据分析与机器学习商业案例实战》。
吴子湛 毕业于合肥工业大学计算机学院,就职于南京市秦淮区大数据中心,拥有多年IT 研发经验,擅长大数据分析与挖掘。
史靖涵 北京邮电大学计算机专业学士,帝国理工大学和加州大学伯克利分校计算机专业硕士,擅长分布式爬虫与数据挖掘。

作品目录

作者简介
前言
本书学习资源
第1章:Cookie模拟登录
1.1、Cookie模拟登录的原理
1.1.1、客户端与服务端
1.1.2、HTTP的无状态性
1.1.3、Cookie的含义与作用
1.1.4、Session的含义与作用
1.1.5、Cookie与Session的交互
1.2、案例实战1:模拟登录淘宝并爬取数据
1.2.1、获取Cookie模拟登录淘宝
1.2.2、爬取淘宝商品数据
1.3、案例实战2:模拟登录新浪微博并爬取数据
1.3.1、获取Cookie模拟登录新浪微博
1.3.2、爬取新浪微博热搜榜信息
课后习题
第2章:验证码反爬的应对
2.1、图像验证码
2.1.1、超级鹰平台注册
2.1.2、超级鹰Python接口的使用
2.1.3、案例实战:英文验证码和中文验证码识别
2.2、计算题验证码
2.3、滑块验证码
2.4、滑动拼图验证码
2.4.1、初级版滑动拼图验证码
2.4.2、高级版滑动拼图验证码
2.5、点选验证码
2.5.1、本地网页识别
2.5.2、bilibili点选验证码识别初探
2.5.3、bilibili点选验证码识别升级:无限尝试版
课后习题
第3章:Ajax动态请求破解
3.1、Ajax简介
3.1.1、不同的网页翻页方式的对比
3.1.2、Ajax的基本概念与工作原理
3.2、案例实战1:爬取开源中国博客频道
3.2.1、分析Ajax请求
3.2.2、爬取单页博客
3.2.3、爬取多页博客
3.3、案例实战2:爬取新浪微博
3.3.1、模拟登录新浪微博
3.3.2、分析单个微博页面
3.3.3、破解Ajax请求爬取多页
课后习题
第4章:手机App内容爬取
4.1、相关软件安装
4.1.1、安装夜神模拟器
4.1.2、安装Node.js
4.1.3、安装JDK
4.1.4、安装Android
Studio
4.1.5、安装Appium
4.1.6、安装Appium-Python-Client库
4.2、手机模拟操作初步尝试
4.2.1、用Android
Studio连接夜神模拟器
4.2.2、用Python连接微信App
4.3、Appium基本操作与进阶操作
4.3.1、Appium基本操作
4.3.2、Appium进阶操作
4.4、案例实战:爬取微信朋友圈内容
4.4.1、获取微信朋友圈页面源代码
4.4.2、提取微信朋友圈内容
4.5、多开模拟器打开多个微信
4.5.1、多开模拟器
4.5.2、用Appium连接多个模拟器
课后习题
第5章:Scrapy爬虫框架
5.1、Scrapy框架基础
5.1.1、Scrapy的安装方法
5.1.2、Scrapy的整体架构
5.1.3、Scrapy的常用指令
5.2、案例实战1:百度新闻爬取
5.2.1、Robots协议破解
5.2.2、User-Agent设置
5.2.3、百度新闻标题爬取
5.3、案例实战2:新浪新闻爬取
5.3.1、实体文件设置
5.3.2、新浪新闻爬取:爬取一条新闻
5.3.3、新浪新闻爬取:爬取多条新闻
5.3.4、新浪新闻爬取:生成文本文件报告
5.4、案例实战3:豆瓣电影海报图片爬取
5.4.1、用常规方法爬取
5.4.2、用Scrapy爬取
5.5、知识拓展:Python类的相关知识
5.5.1、类和对象的概念
5.5.2、类名、属性和方法
5.5.3、类的进阶知识
课后习题
第6章:Scrapy应对反爬
6.1、中间件技术概述
6.1.1、下载器中间件
6.1.2、爬虫中间件
6.2、Scrapy+IP代理:爬取搜狗图片
6.2.1、用Requests库批量下载图片
6.2.2、用Scrapy框架批量下载图片
6.3、Scrapy+Cookie:模拟登录淘宝
6.3.1、在中间件文件中添加Cookie
6.3.2、编写并运行爬虫文件:爬取淘宝网页
6.4、Scrapy+Selenium库:爬取第一财经新闻
6.4.1、在中间件文件中添加Selenium库
6.4.2、编写并运行爬虫文件:爬取新闻信息
课后习题
第7章:爬虫云服务器部署
7.1、HTML网页制作进阶
7.1.1、表格
7.1.2、列表
7.1.3、样式设计
7.1.4、背景设置
7.2、Flask
Web编程基础
7.2.1、Flask入门
7.2.2、用render_template()函数渲染页面
7.2.3、用Flask连接数据库
7.3、Flask
Web编程实战
7.3.1、展示单家公司的数据
7.3.2、展示多家公司的数据
7.3.3、展示舆情评分
7.3.4、只展示当天新闻
7.3.5、只展示负面新闻
7.4、云服务器的购买和登录
7.5、程序云端部署及网站搭建
7.5.1、搭建程序的运行环境
7.5.2、程序24小时运行及Flask项目部署
7.5.3、域名申请和使用
课后习题

相关推荐

微信二维码