精通Python网络爬虫

精通Python网络爬虫

作者:韦玮

出版社:机械工业

出版年:2017年3月

ISBN:9787111562085

所属分类:网络科技

书刊介绍

《精通Python网络爬虫》内容简介

随着大数据时代的到来,我们经常需要在海量数据的互联网环境中搜集一些特定的数据并对其进行分析,我们可以使用网络爬虫对这些特定的数据进行爬取,并对一些无关的数据进行过滤,将目标数据筛选出来。对特定的数据进行爬取的爬虫,我们将其称为聚焦网络爬虫。
在大数据时代,聚焦网络爬虫的应用需求越来越大。本书从系统化的视角,为那些想学习Python网络爬虫或者正在研究Python网络爬虫的朋友们提供了一个全面的参考,让读者可以系统地学习Python网络爬虫的方方面面,在理解并掌握了本书的实例之后,能够独立编写出自己的Python网络爬虫项目,并且能够胜任Python网络爬虫工程师相关岗位的工作。

作品目录

前言
第一篇
理论基础篇
第1章:什么是网络爬虫
第2章:网络爬虫技能总览
第二篇
核心技术篇
第3章:网络爬虫实现原理与实现技术
第4章:Urllib库与URLError异常处理
第5章:正则表达式与Cookie的使用
第6章:手写Python爬虫
第7章:学会使用Fiddler
第8章:爬虫的浏览器伪装技术
第9章:爬虫的定向爬取技术
第三篇
框架实现篇
第10章:了解Python爬虫框架
第11章:爬虫利器——Scrapy安装与配置
第12章:开启Scrapy爬虫项目之旅
第13章:Scrapy核心架构
第14章:Scrapy中文输出与存储
第15章:编写自动爬取网页的爬虫
第16章:CrawlSpider
第17章:Scrapy高级应用
第四篇
项目实战篇
第18章:博客类爬虫项目
第19章:图片类爬虫项目
第20章:模拟登录爬虫项目

热门书摘

网络爬虫由控制节点、爬虫节点、资源库构成。

控制节点,也叫作爬虫的中央控制器,主要负责根据URL地址分配线程,并调用爬虫节点进行具体的爬行。

聚焦网络爬虫主要由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、链接过滤模块、内容评价模块、链接评价模块等构成

Urllib库

metaseeker

爬行策略主要有深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、其他爬行策略等。

常见的网页更新策略主要有3种:用户体验策略、历史数据策略、聚类分析策略等,以下我们将分别进行讲解

泊松过程进行建模等手段,预测该网页下一次更新的时间

http.CookieJar

变量file

爬虫模拟成浏览器访问网页的设置方法。

fetch命令主要用来显示爬虫爬取的过程。

相关推荐

微信二维码