Kettle构建Hadoop ETL系统实践

Kettle构建Hadoop ETL系统实践

作者:王雪迎

出版社:清华大学

出版年:2021年7月

ISBN:9787302582618

所属分类:艺术理论

书刊介绍

《Kettle构建Hadoop ETL系统实践》内容简介

Kettle是一款国外开源的ETL工具,纯Java编写,无须安装,功能完备,数据抽取高效稳定。
本书介绍并演示如何用Kettle完成Hadoop数据仓库上的ETL过程,所有的描绘场景与实验环境都是基于Linux操作系统的虚拟机。全书共分10章,主要内容包括ETL与Kettle的基本概念、Kettle安装与配置、Kettle对Hadoop的支持、建立ETL示例模型、数据转换与装载、定期自动执行ETL作业、维度表技术、事实表技术,以及Kettle并行、集群与分区技术。
本书既适合大数据分析系统开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校和培训机构人工智能与大数据相关专业的师生参考。
王雪迎,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。

作品目录

内容简介
前言
本书内容
资源下载与技术支持
读者对象
致谢
第1章:ETL与Kettle
1.1、ETL基础
1.2、ETL工具
1.3、Kettle基本概念
1.4、为什么选择Kettle
1.5、小结
第2章:Kettle安装与配置
2.1、安装
2.2、配置
2.3、使用资源库
2.4、小结
第3章:Kettle对Hadoop的支持
3.1、Hadoop相关的步骤与作业项
3.2、连接Hadoop
3.3、导入导出Hadoop集群数据
3.4、执行HiveQL语句
3.5、执行MapReduce
3.6、执行Spark作业
3.7、小结
第4章:建立ETL示例模型
4.1、业务场景
4.2、Hive相关配置
4.3、建立数据库表
4.4、装载日期维度数据
4.5、小结
第5章:数据抽取
5.1、Kettle数据抽取概览
5.2、变化数据捕获
5.3、使用Sqoop抽取数据
5.4、小结
第6章:数据转换与装载
6.1、数据清洗
6.2、Hive简介
6.3、初始装载
6.4、定期装载
6.5、小结
第7章:定期自动执行ETL作业
7.1、使用crontab
7.2、使用Oozie
7.3、使用start作业项
7.4、小结
第8章:维度表技术
8.1、增加列
8.2、维度子集
8.3、角色扮演维度
8.4、层次维度
8.5、退化维度
8.6、杂项维度
8.7、维度合并
8.8、分段维度
8.9、小结
第9章:事实表技术
9.1、事实表概述
9.2、周期快照
9.3、累积快照
9.4、无事实的事实表
9.5、迟到的事实
9.6、累积度量
9.7、小结
第10章:并行、集群与分区
10.1、数据分发方式与多线程
10.2、Carte子服务器
10.3、集群转换
10.4、数据库分区
10.5、小结

相关推荐

微信二维码