大数据技术体系详解:原理、架构与实践

大数据技术体系详解:原理、架构与实践

作者:董西成

出版社:机械工业

出版年:2018年1月

ISBN:9787111590729

所属分类:休闲旅游

书刊介绍

《大数据技术体系详解:原理、架构与实践》内容简介

随着大数据技术的普及,它已经被广泛应用于互联网、电信、金融、工业制造等诸多行业。据相关报告统计,大数据人才需求呈井喷态势,越来越多的程序员开始学习大数据技术,这使得它已经成为程序员所需的基本技能。为了满足大数据人才市场需求,越来越多的大数据技术书籍不断面世,包括《Hadoop权威指南》《Hadoop实战》等。尽管如此,面向初、中级学者,能够系统化、体系化介绍大数据技术的基础书籍并不多见。笔者曾接触过大量大数据初学者,他们一直渴望能有一本简单且易于理解的教科书式的大数据书籍出现。为了满足这些读者的需求,笔者根据自己多年的数据项目和培训经验,继《Hadoop技术内幕》书籍之后,于两年前开始尝试编写一本浅显易读的大数据基础书籍。
董西成,资深hadoop技术专家。
本书站在大数据落地应用的角度,系统阐述大数据从数据收集,到数据存储、分布式协调及资源管理、计算引擎、分析工具,再到数据可视化这一完整流程,本书既包含主要技术的实现原理及其框架,也包含了具体落地指导,是帮助企业和个人整体了解大数据框架不可多得的参考书。

作品目录

前言
第一部分
概述篇
第1章:企业级大数据技术体系概述
1.1、大数据系统产生背景及应用场景
1.2、企业级大数据技术框架
1.3、企业级大数据技术实现方案
1.4、大数据架构:Lambda
Architecture
1.5、Hadoop与Spark版本选择及安装部署
1.6、小结
1.7、本章问题
第二部分
数据收集篇
第2章:关系型数据的收集
2.1、Sqoop概述
2.2、Sqoop基本架构
2.3、Sqoop使用方式
2.4、数据增量收集CDC
2.5、小结
2.6、本章问题
第3章:非关系型数据的收集
3.1、概述
3.2、Flume
NG基本架构
3.3、Flume
NG数据流拓扑构建方法
3.4、小结
3.5、本章问题
第4章:分布式消息队列Kafka
4.1、概述
4.2、Kafka设计架构
4.3、Kafka程序设计
4.4、Kafka典型应用场景
4.5、小结
4.6、本章问题
第三部分
数据存储篇
第5章:数据序列化与文件存储格式
5.1、数据序列化的意义
5.2、数据序列化方案
5.3、文件存储格式剖析
5.4、小结
5.5、本章问题
第6章:分布式文件系统
6.1、背景
6.2、文件级别和块级别的分布式文件系统
6.3、HDFS基本架构
6.4、HDFS关键技术
6.5、HDFS访问方式
6.6、小结
6.7、本章问题
第7章:分布式结构化存储系统
7.1、背景
7.2、HBase数据模型
7.3、HBase基本架构
7.4、HBase访问方式
7.5、HBase应用案例
7.6、分布式列式存储系统Kudu
7.7、小结
7.8、本章问题
第四部分
分布式协调与资源管理篇
第8章:分布式协调服务ZooKeeper
8.1、分布式协调服务的存在意义
8.2、ZooKeeper数据模型
8.3、ZooKeeper基本架构
8.4、ZooKeeper程序设计
8.5、ZooKeeper应用案例
8.6、小结
8.7、本章问题
第9章:资源管理与调度系统YARN
9.1、YARN产生背景
9.2、YARN设计思想
9.3、YARN的基本架构与原理
9.4、YARN资源调度器
9.5、YARN资源隔离
9.6、以YARN为核心的生态系统
9.7、资源管理系统Mesos
9.8、资源管理系统架构演化
9.9、小结
9.10、本章问题
第五部分
大数据计算引擎篇
第10章:批处理引擎MapReduce
10.1、概述
10.2、MapReduce编程模型
10.3、MapReduce程序设计
10.4、MapReduce内部原理
10.5、MapReduce应用实例
10.6、小结
10.7、本章问题
第11章:DAG计算引擎Spark
11.1、概述
11.2、Spark编程模型
11.3、Spark运行模式
11.4、Spark程序设计实例
11.5、Spark内部原理
11.6、DataFrame、Dataset与SQL
11.7、Spark生态系统
11.8、小结
11.9、本章问题
第12章:交互式计算引擎
12.1、概述
12.2、ROLAP
12.3、MOLAP
12.4、小结
12.5、本章问题
第13章:流式实时计算引擎
13.1、概述
13.2、Storm基础与实战
13.3、Spark
Streaming基础与实战
13.4、流式计算引擎对比
13.5、小结
13.6、本章问题
第六部分
数据分析篇
第14章:数据分析语言HQL与SQL
14.1、概述
14.2、Hive架构
14.3、Spark
SQL架构
14.4、HQL
14.5、小结
14.6、本章问题
第15章:大数据统一编程模型
15.1、产生背景
15.2、Apache
Beam基本构成
15.3、Apache
Beam编程模型
15.4、Apache
Beam流式计算模型
15.5、Apache
Beam编程实例
15.6、小结
15.7、本章问题
第16章:大数据机器学习库
16.1、机器学习库简介
16.2、MLLib机器学习库
16.3、小结
16.4、本章问题

相关推荐

微信二维码