Hadoop海量数据处理:技术详解与项目实战(第2版)

Hadoop海量数据处理:技术详解与项目实战(第2版)

作者:范东来

出版社:人民邮电

出版年:2016年8月

ISBN:9787115427465

所属分类:经济金融

书刊介绍

《Hadoop海量数据处理:技术详解与项目实战(第2版)》内容简介

本书介绍了Hadoop技术的相关知识,并将理论知识与实际项目相结合。全书共分为三个部分:基础篇、应用篇和总结篇。基础篇详细介绍了Hadoop、YARN、MapReduce、HDFS、Hive、Sqoop和HBase,并深入探讨了Hadoop的运维和调优;应用篇则包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现;结束篇对全书进行总结,并对技术发展做了展望。
范东来,北京航空航天大学硕士,技术图书作者和译者,著有《Hadoop海量数据处理》(该书台湾繁体字版为《Hadoop:BigData技術詳解與專案實作》),译有《解读NoSQL》。BBD(数联铭品)大数据技术部负责人,大数据平台架构师,极客学院布道师。研究方向:并行图挖掘、去中心化应用。

作品目录

版权信息
内容提要
第2版序
第1版序
前言
为什么要写这本书
本书特点有哪些
读者对象是哪些
为什么要写第2版
如何阅读本书
勘误和支持
致谢
基础篇:Hadoop基础
第1章:绪论
1.1、Hadoop和云计算
1.2、Hadoop和大数据
1.3、数据挖掘和商业智能
1.4、小结
第2章:环境准备
2.1、Hadoop的发行版本选择
2.2、Hadoop架构
2.3、安装Hadoop
2.4、安装Hive
2.5、安装HBase
2.6、安装Sqoop
2.7、Cloudera
Manager
2.8、小结
第3章:Hadoop的基石:HDFS
3.1、认识HDFS
3.2、HDFS读取文件和写入文件
3.3、如何访问HDFS
3.4、HDFS中的新特性
3.5、小结
第4章:YARN:统一资源管理和调度平台
4.1、YARN是什么
4.2、统一资源管理和调度平台范型
4.3、YARN的架构
4.4、YARN的工作流程
4.5、YARN的调度器
4.6、YARN命令行
4.7、Apache
Mesos
4.8、小结
第5章:分而治之的智慧:MapReduce
5.1、认识MapReduce
5.2、Hello
Word
Count
5.3、MapReduce的过程
5.4、MapReduce的工作机制
5.5、MapReduce编程
5.6、MapReduce编程实例:连接
5.7、MapReduce编程实例:二次排序
5.8、MapReduce编程实例:全排序
5.9、小结
第6章:SQL
on
Hadoop:Hive
6.1、认识Hive
6.2、数据类型和存储格式
6.3、HQL:数据定义
6.4、HQL:数据操作
6.5、HQL:数据查询
6.6、Hive函数
6.7、Hive用户自定义函数
6.8、小结
第7章:SQL
to
Hadoop
:
Sqoop
7.1、一个Sqoop示例
7.2、导入过程
7.3、导出过程
7.4、Sqoop的使用
7.5、小结
第8章:HBase:
Hadoop
Database
8.1、酸和碱:两种数据库事务方法论
8.2、CAP定理
8.3、NoSQL的架构模式
8.4、HBase的架构模式
8.5、HBase写入和读取数据
8.6、HBase基础API
8.7、HBase高级API
8.8、小结
第9章:Hadoop性能调优和运维
9.1、Hadoop客户端
9.2、Hadoop性能调优
9.3、Hive性能调优
9.4、HBase调优
9.5、Hadoop运维
9.6、小结
应用篇:商业智能系统项目实战
第10章:在线图书销售商业智能系统
10.1、项目背景
10.2、功能需求
10.3、非功能需求
10.4、小结
第11章:系统结构设计
11.1、系统架构
11.2、功能设计
11.3、数据仓库结构
11.4、系统网络拓扑与硬件选型
11.5、技术选型
11.6、小结
第12章:在开发之前
12.1、新建一个工程
12.2、代码目录结构
12.3、项目的环境变量
12.4、如何调试
12.5、小结
第13章:实现数据导入导出模块
13.1、处理流程
13.2、导入方式
13.3、读取配置文件
13.4、SqoopUtil
13.5、整合
13.6、导入说明
13.7、导出模块
13.8、小结
第14章:实现数据分析工具模块
14.1、处理流程
14.2、读取配置文件
14.3、HiveUtil
14.4、整合
14.5、数据分析和报表
14.6、小结
第15章:实现业务数据的数据清洗模块
15.1、ETL
15.2、处理流程
15.3、数据去重
15.4、小结
第16章:实现点击流日志的数据清洗模块
16.1、数据仓库和Web
16.2、处理流程
16.3、字段的获取
16.4、编写MapReduce作业
16.5、还能做什么
16.6、小结
第17章:实现购书转化率分析模块
17.1、漏斗模型
17.2、处理流程
17.3、读取配置文件
17.4、提取所需数据
17.5、编写转化率分析MapReduce作业
17.6、对中间结果进行汇总得到最终结果
17.7、整合
17.8、小结
第18章:实现购书用户聚类模块
18.1、物以类聚
18.2、聚类算法
18.3、用MapReduce实现聚类算法
18.4、处理流程
18.5、提取数据并做归一化
18.6、维度相关性
18.7、使用Mahout完成聚类
18.8、得到最终结果
18.9、评估聚类结果
18.10、小结
第19章:实现调度模块
19.1、工作流
19.2、编写代码
19.3、crontab
19.4、让数据说话
19.5、小结
结束篇:总结和展望
第20章:总结和展望
20.1、总结
20.2、BDAS
20.3、Dremel系技术
20.4、Pregel系技术
20.5、Docker和Kubernetes
20.6、数据集成工具NiFi
20.7、小结
参考文献
欢迎来到异步社区!
异步社区的来历
社区里都有什么?
灵活优惠的购书
社区里还可以做什么?
加入异步
看完了

相关推荐

微信二维码