Hadoop海量数据处理

Hadoop海量数据处理

作者:范东来

出版社:人民邮电

出版年:2015年5月

ISBN:9787115380999

所属分类:经济金融

书刊介绍

《Hadoop海量数据处理》内容简介

Hadoop是目前最受关注的大数据处理平台和解决方案,并且已经广泛应用于生产环境。本书主要介绍Hadoop技术的相关知识,不但详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop,还深入探讨了Hadoop的运维和调优,并包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现。本书的最大特点是面向实践。基础篇介绍Hadoop及相关组件的同时,包含了大量动手实例,而应用篇包含的基于Hadoop的完整实例脱胎于生产环境的真实项目。在应用篇中,读者不仅能够通过项目实战巩固基础篇的学习效果,还能学习商业智能系统的开发过程。本书由浅至深,从理论基础到项目实战,适合Hadoop的初学者阅读,也适合作为高等院校相关课程的教学参考书。
作者:范东来

作品目录


前言
基础篇:Hadoop基础
第1章:绪论
1.1、Hadoop和云计算
1.2、Hadoop和大数据
1.3、数据挖掘和商业智能
第2章:环境准备
2.1、Hadoop的发行版本选择
2.2、Hadoop架构
2.3、安装Hadoop
2.4、安装Hive
2.5、安装Sqoop
2.6、Eclipse
Hadoop插件的安装和使用
第3章:Hadoop的基石:HDFS
3.1、认识HDFS
3.2、HDFS读取文件和写入文件
3.3、如何访问HDFS
第4章:分而治之的智慧:MapReduce
4.1、认识MapReduce
4.2、Hello
WordCount
4.3、MapReduce的过程
4.4、MapReduce的工作机制
4.5、MapReduce编程
4.6、MapReduce编程实例:连接
4.7、MapReduce编程实例:二次排序
4.8、MapReduce编程实例:全排序
第5章:SQL
on
Hadoop:Hive
5.1、认识Hive
5.2、数据类型和存储格式
5.3、HQL:数据定义
5.4、HQL:数据操作
5.5、HQL:数据查询
5.6、Hive函数
5.7、Hive用户自定义函数
第6章:SQL
to
Hadoop:Sqoop
6.1、一个Sqoop示例
6.2、导入过程
6.3、导出过程
6.4、Sqoop的使用
第7章:Hadoop性能调优和运维
7.1、Hadoop客户端
7.2、Hadoop性能调优
7.3、Hive性能调优
7.4、Hadoop运维
应用篇:商业智能系统项目实战
第8章:在线图书销售商业智能系统
8.1、项目背景
8.2、功能需求
8.3、非功能需求
第9章:系统结构设计
9.1、系统架构
9.2、功能设计
9.3、数据仓库结构
9.4、系统网络拓扑与硬件选型
9.5、技术选型
第10章:在开发之前
10.1、新建一个工程
10.2、代码目录结构
10.3、项目的环境变量
10.4、如何调试
第11章:实现数据导入导出模块
11.1、处理流程
11.2、导入方式
11.3、读取配置文件
11.4、SqoopUtil
11.5、整合
11.6、导入说明
11.7、导出模块
第12章:实现数据分析工具模块
12.1、处理流程
12.2、读取配置文件
12.3、HiveUtil
12.4、整合
12.5、数据分析和报表
第13章:实现业务数据的数据清洗模块
13.1、ETL
13.2、处理流程
13.3、数据去重
第14章:实现点击流日志的数据清洗模块
14.1、数据仓库和Web
14.2、处理流程
14.3、字段的获取
14.4、编写MapReduce作业
14.5、还能做什么
第15章:实现购书转化率分析模块
15.1、漏斗模型
15.2、处理流程
15.3、读取配置文件
15.4、提取所需数据
15.5、编写转化率分析MapReduce作业
15.6、对中间结果进行汇总得到最终结果
15.7、整合
第16章:实现购书用户聚类模块
16.1、物以类聚
16.2、聚类算法
16.3、用MapReduce实现聚类算法
16.4、处理流程
16.5、提取数据并做归一化
16.6、维度相关性
16.7、使用Mahout完成聚类
16.8、得到最终结果
16.9、评估聚类结果
第17章:实现调度模块
17.1、工作流
17.2、编写代码
17.3、crontab
17.4、让数据说话
结束篇:总结和展望
第18章:总结和展望
18.1、总结
18.2、YARN和CDH5、18.3、Apache
Spark
18.4、NoSQL和NewSQL
参考文献

相关推荐

微信二维码