Hadoop构建数据仓库实践

Hadoop构建数据仓库实践

作者:王雪迎

出版社:清华大学

出版年:2017年7月

ISBN:9787302469803

所属分类:诗歌文集

书刊介绍

《Hadoop构建数据仓库实践》内容简介

本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。
本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。
本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。
王雪迎,毕业于中国地质大学计算机专业,高级工程师,拥有20年数据库、数据仓库相关技术经验。曾先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。

作品目录

作者简介
内容简介
前言
第1章:◄数据仓库简介►
1.1、什么是数据仓库
1.1.1、数据仓库的定义
1.1.2、建立数据仓库的原因
1.2、操作型系统与分析型系统
1.2.1、操作型系统
1.2.2、分析型系统
1.2.3、操作型系统和分析型系统对比
1.3、数据仓库架构
1.3.1、基本架构
1.3.2、主要数据仓库架构
1.3.3、操作数据存储
1.4、抽取-转换-装载
1.4.1、数据抽取
1.4.2、数据转换
1.4.3、数据装载
1.4.4、开发ETL系统的方法
1.4.5、常见ETL工具
1.5、数据仓库需求
1.5.1、基本需求
1.5.2、数据需求
1.6、小结
第2章:◄数据仓库设计基础►
2.1、关系数据模型
2.1.1、关系数据模型中的结构
2.1.2、关系完整性
2.1.3、规范化
2.1.4、关系数据模型与数据仓库
2.2、维度数据模型
2.2.1、维度数据模型建模过程
2.2.2、维度规范化
2.2.3、维度数据模型的特点
2.2.4、星型模式
2.2.5、雪花模式
2.3、Data
Vault模型
2.3.1、Data
Vault模型简介
2.3.2、Data
Vault模型的组成部分
2.3.3、Data
Vault模型的特点
2.3.4、Data
Vault模型的构建
2.3.5、Data
Vault模型实例
2.4、数据集市
2.4.1、数据集市的概念
2.4.2、数据集市与数据仓库的区别
2.4.3、数据集市设计
2.5、数据仓库实施步骤
2.6、小结
第3章:◄Hadoop生态圈与数据仓库►
3.1、大数据定义
3.2、Hadoop简介
3.2.1、Hadoop的构成
3.2.2、Hadoop的主要特点
3.2.3、Hadoop架构
3.3、Hadoop基本组件
3.3.1、HDFS
3.3.2、MapReduce
3.3.3、YARN
3.4、Hadoop生态圈的其他组件
3.5、Hadoop与数据仓库
3.5.1、关系数据库的可扩展性瓶颈
3.5.2、CAP理论
3.5.3、Hadoop数据仓库工具
3.6、小结
第4章:◄安装Hadoop►
4.1、Hadoop主要发行版本
4.1.1、Cloudera
Distribution
for
Hadoop
(CDH)
4.1.2、Hortonworks
Data
Platform
(HDP)
4.1.3、MapR
Hadoop
4.2、安装Apache
Hadoop
4.2.1、安装环境
4.2.2、安装前准备
4.2.3、安装配置Hadoop
4.2.4、安装后配置
4.2.5、初始化及运行
4.3、配置HDFS
Federation
4.4、离线安装CDH及其所需的服务
4.4.1、CDH安装概述
4.4.2、安装环境
4.4.3、安装配置
4.4.4、Cloudera
Manager许可证管理
4.5、小结
第5章:◄Kettle与Hadoop►
5.1、Kettle概述
5.2、Kettle连接Hadoop
5.2.1、连接HDFS
5.2.2、连接Hive
5.3、导出导入Hadoop集群数据
5.3.1、把数据从HDFS抽取到RDBMS
5.3.2、向Hive表导入数据
5.4、执行Hive的HiveQL语句
5.5、MapReduce转换示例
5.6、Kettle提交Spark作业
5.6.1、安装Spark
5.6.2、配置Kettle向Spark集群提交作业
5.7、小结
第6章:◄建立数据仓库示例模型►
6.1、业务场景
6.2、Hive相关配置
6.2.1、选择文件格式
6.2.2、支持行级更新
6.2.3、Hive事务支持的限制
6.3、Hive表分类
6.4、向Hive表装载数据
6.5、建立数据库表
6.6、装载日期维度数据
6.7、小结
第7章:◄数据抽取►
7.1、逻辑数据映射
7.2、数据抽取方式
7.3、导出成文本文件
7.4、分布式查询
7.5、使用Sqoop抽取数据
7.5.1、Sqoop简介
7.5.2、CDH
5.7.0中的Sqoop
7.5.3、使用Sqoop抽取数据
7.5.4、Sqoop优化
7.6、小结
第8章:◄数据转换与装载►
8.1、数据清洗
8.2、Hive简介
8.2.1、Hive的体系结构
8.2.2、Hive的工作流程
8.2.3、Hive服务器
8.2.4、Hive客户端
8.3、初始装载
8.4、定期装载
8.5、Hive优化
8.6、小结
第9章:◄定期自动执行ETL作业►
9.1、crontab
9.2、Oozie简介
9.2.1、Oozie的体系结构
9.2.2、CDH
5.7.0中的Oozie
9.3、建立定期装载工作流
9.4、建立协调器作业定期自动执行工作流
9.5、Oozie优化
9.6、小结
第10章:◄维度表技术►
10.1、增加列
10.2、维度子集
10.3、角色扮演维度
10.4、层次维度
10.4.1、固定深度的层次
10.4.2、递归
10.4.3、多路径层次
10.4.4、参差不齐的层次
10.5、退化维度
10.6、杂项维度
10.7、维度合并
10.8、分段维度
10.9、小结
第11章:◄事实表技术►
11.1、事实表概述
11.2、周期快照
11.3、累积快照
11.4、无事实的事实表
11.5、迟到的事实
11.6、累积度量
11.7、小结
第12章:◄联机分析处理►
12.1、联机分析处理简介
12.1.1、概念
12.1.2、分类
12.1.3、性能
12.2、Impala简介
12.3、Hive、SparkSQL、Impala比较
12.3.1、Spark
SQL简介
12.3.2、Hive、Spark
SQL、Impala比较
12.3.3、Hive、Spark
SQL、Impala性能对比
12.4、联机分析处理实例
12.5、Apache
Kylin与OLAP
12.5.1、Apache
Kylin架构
12.5.2、Apache
Kylin安装
12.6、小结
第13章:◄数据可视化►
13.1、数据可视化简介
13.2、Hue简介
13.2.1、Hue功能快速预览
13.2.2、配置元数据存储
13.3、Zeppelin简介
13.3.1、Zeppelin架构
13.3.2、Zeppelin安装配置
13.3.3、在Zeppelin中添加MySQL翻译器
13.4、Hue、Zeppelin比较
13.5、数据可视化实例
13.6、小结

相关推荐

微信二维码