Hadoop+Spark生态系统操作与实战指南-人文社科-文化科教-太极之巅书单号

书刊介绍

《Hadoop+Spark生态系统操作与实战指南》内容简介

本书用于Hadoop+Spark快速上手，全面解析Hadoop和Spark生态系统，通过原理解说和实例操作每一个组件，让读者能够轻松跨入大数据分析与开发的大门。
全书共12章，大致分为3个部分，第1部分（第1～7章）讲解Hadoop的原生态组件，包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装，以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作。第2部分（第8～11章）讲解Spark的原生态组件，包括Spark Core、Spark SQL、Spark Streaming、DataFrame，以及介绍Scala、Spark API、Spark SQL、Spark Streaming、DataFrame原理和CDH版本环境下实战操作，其中Flume和Kafka属于Apache顶级开源项目也放在本篇讲解。第3部分（第12章）讲解两个大数据项目，包络网页日志离线项目和实时项目，在CDH版本环境下通过这两个项目将Hadoop和Spark原生态组件进行整合，一步步带领读者学习和实战操作。
本书适合想要快速掌握大数据技术的初学者，也适合作为高等院校和培训机构相关专业师生的教学参考书和实验用书。
余辉，中国科学院大学硕士研究生毕业，研究方向为云计算和大数据。现供职于某上市公司担任技术经理，并在Oracle OAEC人才产业集团大数据学院担任大数据讲师。曾在清华大学电子工程系NGNLab研究室担任软件工程师。

作品目录

推荐序
前言
第1章：◄Hadoop概述►
1.1、Hadoop简介
1.2、Hadoop版本和生态系统
1.3、MapReduce简介
1.4、HDFS简介
1.5、Eclipse+Java开发环境搭建
1.6、小结
第2章：◄Hadoop集群搭建►
2.1、虚拟机简介
2.2、虚拟机配置
2.3、Linux系统设置
2.4、Apache版本Hadoop集群搭建
2.5、CDH版本Hadoop集群搭建
2.6、小结
第3章：◄Hadoop基础与原理►
3.1、MapReduce原理介绍
3.2、HDFS原理介绍
3.3、HDFS实战
3.4、YARN原理介绍
3.5、小结
第4章：◄ZooKeeper实战►
4.1、ZooKeeper原理介绍
4.2、ZooKeeper安装
4.3、ZooKeeper实战
4.4、小结
第5章：◄MapReduce实战►
5.1、前期准备
5.2、查看YARN上的任务
5.3、加载配置文件
5.4、MapReduce实战
5.5、小结
第6章：◄HBase实战►
6.1、HBase简介及架构
6.2、HBase安装
6.3、HBase实战
6.4、小结
第7章：◄Hive实战►
7.1、Hive介绍和架构
7.2、Hive数据类型和表结构
7.3、Hive分区、桶与倾斜
7.4、Hive安装
7.5、Hive实战
7.6、小结
第8章：◄Scala实战►
8.1、Scala简介与安装
8.2、IntelliJ
IDEA开发环境搭建
8.3、IntelliJ
IDEA建立Maven项目
8.4、基础语法
8.5、函数
8.6、控制语句
8.7、函数式编程
8.8、模式匹配
8.9、类和对象
8.10、Scala异常处理
8.11、Trait（特征）
8.12、Scala文件I/O
8.13、作业
8.14、小结
第9章：◄Flume实战►
9.1、Flume概述
9.2、Flume的结构
9.3、Flume安装
9.4、Flume实战
9.5、小结
第10章：◄Kafka实战►
10.1、Kafka概述
10.2、Kafka设计原理
10.3、Kafka主要配置
10.4、Kafka客户端操作
10.5、Java操作Kafka
10.6、Flume连接Kafka
10.7、小结
第11章：◄Spark实战►
11.1、Spark概述
11.2、Spark基本概念
11.3、Spark算子实战及功能描述
11.4、Spark
Streaming实战
11.5、Spark
SQL和DataFrame实战
11.6、小结
第12章：◄大数据网站日志分析项目►
12.1、项目介绍
12.2、网站离线项目
12.3、网站实时项目
12.4、小结