网络数据采集技术:Java网络爬虫实战

网络数据采集技术:Java网络爬虫实战

作者:钱洋姜元春

出版社:电子工业

出版年:2020年1月

ISBN:9787121376078

所属分类:人生哲学

书刊介绍

《网络数据采集技术:Java网络爬虫实战》内容简介

本书以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。
本书适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。
钱洋,合肥工业大学管理科学与工程系博士、CSDN博客专家。作为技术人员参与过多个横向、纵向学术课题,负责数据采集系统的设计与开发工作。在CSDN(博客名称:HFUT_qianyang)上撰写了多篇关于数据采集、自然语言处理、编程语言等领域的原创博客。
姜元春,合肥工业大学教授、博士生导师。长期从事电子商务、商务智能、数据采集与挖掘等方面的理论研究与教学工作。先后主持过国家自然科学基金优秀青年科学基金项目、国家自然科学基金重大研究计划培育项目、国家自然科学基金青年科学基金项目、教育部人文社科青年基金项目、阿里巴巴青年学者支持计划、CCF-腾讯犀牛鸟基金项目等课题的研究工作。

作品目录

内容简介
前言
第1章:网络爬虫概述与原理
1.1、网络爬虫简介
1.2、网络爬虫分类
1.3、网络爬虫流程
1.4、网络爬虫的采集策略
1.5、学习网络爬虫的建议
1.6、本章小结
第2章:网络爬虫涉及的Java基础知识
2.1、开发环境的搭建
2.2、基本数据类型
2.3、数组
2.4、条件判断与循环
2.5、集合
2.6、对象与类
2.7、String类
2.8、日期和时间处理
2.9、正则表达式
2.10、Maven工程的创建
2.11、log4j的使用
2.12、本章小结
第3章:HTTP协议基础与网络抓包
3.1、HTTP协议简介
3.2、URL
3.3、报文
3.4、HTTP请求方法
3.5、HTTP状态码
3.6、HTTP信息头
3.7、HTTP响应正文
3.8、网络抓包
3.9、本章小结
第4章:网页内容获取
4.1、Jsoup的使用
4.2、HttpClient的使用
4.3、URLConnection与HttpURLConnection
4.4、本章小结
第5章:网页内容解析
5.1、HTML解析
5.2、XML解析
5.3、JSON解析
5.4、本章小结
第6章:网络爬虫数据存储
6.1、输入流与输出流
6.2、Excel存储
6.3、MySQL数据存储
6.4、本章小结
第7章:网络爬虫实战项目
7.1、新闻数据采集
7.2、企业信息采集
7.3、股票信息采集
7.4、本章小结
第8章:Selenium的使用
8.1、Selenium简介
8.2、Java
Selenium环境搭建
8.3、浏览器的操控
8.4、元素定位
8.5、模拟登录
8.6、动态加载JavaScript数据(操作滚动条)
8.7、隐藏浏览器
8.8、截取验证码
8.9、本章小结
第9章:网络爬虫开源框架
9.1、Crawler4j的使用
9.2、WebCollector的使用
9.3、WebMagic的使用
9.4、本章小结

相关推荐

微信二维码