离线和实时大数据开发实战

离线和实时大数据开发实战

作者:朱松岭

出版社:机械工业

出版年:2018年5月

ISBN:9787111596783

所属分类:诗歌文集

书刊介绍

《离线和实时大数据开发实战》内容简介

本书分为三篇。第壹篇:从整体上给出数据大图和数据平台大图,主要介绍数据的主要流程、各个流程的关键技术、数据的主要从业者及他们的职责等;数据平台大图分离线和实时分别给出数据平台架构、关键数据概念和技术等;第二篇:介绍离线数据开发的主要技术,包含Hadoop、Hive、维度建模等,另外此部分还将综合上述各种离线技术给出离线数据处理实战;第三篇:集中介绍实时数据处理的各项技术,包含Storm、SparkSteaming、Flink、Beam等。
朱松岭著。

作品目录

前言
第一篇
数据大图和数据平台大图
第1章:数据大图
1.1、数据流程
1.2、数据技术
1.3、数据相关从业者和角色
1.4、本章小结
第2章:数据平台大图
2.1、离线数据平台的架构、技术和设计
2.2、实时数据平台的架构、技术和设计
2.3、数据管理
2.4、本章小结
第二篇
离线数据开发:大数据开发的主战场
第3章:Hadoop原理实践
3.1、开启大数据时代的Hadoop
3.2、HDFS和MapReduce优缺点分析
3.3、HDFS和MapReduce基本架构
3.4、MapReduce内部原理实践
3.5、本章小结
第4章:Hive原理实践
4.1、离线大数据处理的主要技术:Hive
4.2、Hive
SQL
4.3、Hive
SQL执行原理图解
4.4、Hive函数
4.5、其他SQL
on
Hadoop技术
4.6、本章小结
第5章:Hive优化实践
5.1、离线数据处理的主要挑战:数据倾斜
5.2、Hive优化
5.3、join无关的优化
5.4、大表join小表优化
5.5、大表join大表优化
5.6、本章小结
第6章:维度建模技术实践
6.1、大数据建模的主要技术:维度建模
6.2、维度表设计
6.3、深入事实表
6.4、大数据的维度建模实践
6.5、本章小结
第7章:Hadoop数据仓库开发实战
7.1、业务需求
7.2、Hadoop数据仓库架构设计
7.3、Hadoop数据仓库规范设计
7.4、FutureRetailer数据仓库构建实践
7.5、数据平台新架构——数据湖
7.6、本章小结
第三篇
实时数据开发:大数据开发的未来
第8章:Storm流计算开发
8.1、流计算技术的鼻祖:Storm技术
8.2、Storm实时开发示例
8.3、Storm高级原语Trident
8.4、Storm关键技术
8.5、本章小结
第9章:Spark
Streaming流计算开发
9.1、Spark生态和核心概念
9.2、Spark生态的流计算技术:Spark
Streaming
9.3、Spark
Streaming的实时开发示例
9.4、Spark
Streaming调优实践
9.5、Spark
Streaming关键技术
9.6、本章小结
第10章:Flink流计算开发
10.1、流计算技术新贵:Flink
10.2、Flink
API
10.3、Flink实时开发示例
10.4、Flink关键技术详解
10.5、本章小结
第11章:Beam技术
11.1、意图一统流计算的Beam
11.2、Beam技术核心:Beam
Model
11.3、Beam
SDK
11.4、Beam窗口详解
11.5、本章小结
第12章:Stream
SQL实时开发实战
12.1、流计算SQL原理和架构
12.2、流计算SQL:未来主要的实时开发技术
12.3、Stream
SQL
12.4、Stream
SQL的实时开发实战
12.5、撤回机制
12.6、本章小结
参考文献

相关推荐

微信二维码