Python网络数据采集

Python网络数据采集

作者:米切尔

出版社:人民邮电出版社

出版年:2016-03-01

评分:5分

ISBN:9787115416292

所属分类:网络科技

书刊介绍

Python网络数据采集 内容简介

网络上的数据量越来越大,单靠浏览网页获取信息越来越困难,如何有效地提取并利用信息已成为一个巨大的挑战。本书采用简洁强大的python语言,全面介绍网络数据采集技术,教你从不同形式的网络资源中自由地获取数据。你将学会如何使用python脚本和网络api一次性采集并处理成千上万个网页上的数据。本书适合熟悉python的程序员、安全专业人士、网络管理员阅读。书中不仅介绍了网络数据采集的基本原理,还深入探讨了更高级的主题,比如分析原始数据、用网络爬虫测试网站等。此外,书中还提供了详细的代码示例,以帮助你更好地理解书中的内容。

Python网络数据采集 本书特色

本书采用简洁强大的python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导。第1部分重点介绍网络数据采集的基本原理:如何用python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。

Python网络数据采集 目录

**部分创建爬虫第1章初见网络爬虫21.1网络连接21.2beautifulsoup简介41.2.1安装beautifulsoup51.2.2运行beautifulsoup71.2.3可靠的网络连接8第2章复杂html解析112.1不是一直都要用锤子112.2再端一碗beautifulsoup122.2.1beautifulsoup的find()和findall()132.2.2其他beautifulsoup对象152.2.3导航树162.3正则表达式192.4正则表达式和beautifulsoup232.5获取属性242.6lambda表达式242.7超越beautifulsoup25第3章开始采集263.1遍历单个域名263.2采集整个网站303.3通过互联网采集343.4用scrapy采集38第4章使用api424.1api概述434.2api通用规则434.2.1方法444.2.2验证444.3服务器响应454.4echo nest464.5twitter api484.5.1开始484.5.2几个示例504.6google api524.6.1开始524.6.2几个示例534.7解析json数据554.8回到主题564.9再说一点api60第5章存储数据615.1媒体文件615.2把数据存储到csv645.3mysql655.3.1安装mysql665.3.2基本命令685.3.3与python整合715.3.4数据库技术与*佳实践745.3.5mysql里的“六度空间游戏”755.4email77第6章读取文档806.1文档编码806.2纯文本816.3csv856.4pdf876.5微软word和.docx88第二部分高级数据采集第7章数据清洗947.1编写代码清洗数据947.2数据存储后再清洗98第8章自然语言处理1038.1概括数据1048.2马尔可夫模型1068.3自然语言工具包1128.3.1安装与设置1128.3.2用nltk做统计分析1138.3.3用nltk做词性分析1158.4其他资源119第9章穿越网页表单与登录窗口进行采集1209.1python requests库1209.2提交一个基本表单1219.3单选按钮、复选框和其他输入1239.4提交文件和图像1249.5处理登录和cookie1259.6其他表单问题127第10章采集javascript12810.1javascript简介12810.2ajax和动态html13110.3处理重定向137第11章图像识别与文字处理13911.1ocr库概述14011.1.1pillow14011.1.2tesseract14011.1.3numpy14111.2处理格式规范的文字14211.3读取验证码与训练tesseract14611.4获取验证码提交答案151第12章避开采集陷阱15412.1道德规范15412.2让网络机器人看起来像人类用户15512.2.1修改请求头15512.2.2处理cookie15712.2.3时间就是一切15912.3常见表单安全措施15912.3.1隐含输入字段值15912.3.2避免蜜罐16012.4问题检查表162第13章用爬虫测试网站16413.1测试简介16413.2python单元测试16513.3selenium单元测试16813.4python单元测试与selenium单元测试的选择172第14章远程采集17414.1为什么要用远程服务器17414.1.1避免ip地址被封杀17414.1.2移植性与扩展性17514.2tor代理服务器17614.3远程主机17714.3.1从网站主机运行17814.3.2从云主机运行17814.4其他资源17914.5勇往直前180附录apython简介181附录b互联网简介184附录c网络数据采集的法律与道德约束188作者简介200封面介绍200

Python网络数据采集 相关资料

这本书中的工具和示例帮我轻松地将一些重复性工作自动化了,我可以将省下来的时间用于解决更有意思的问题。这是一本实用手册,非常适合用来解决实际工作中的问题。”——eric vanwyk,美国欧林工程学院电子计算机工程师

Python网络数据采集 作者简介

Ryan Mitchell,数据科学家、软件工程师,目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前,曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作,主要面向金融和零售业。另著有Instant Web Scraping with Java。

相关推荐

微信二维码