大数据:从基础理论到最佳实践

大数据:从基础理论到最佳实践

作者:祁伟 主编

出版社:清华大学

出版年:2017年1月

ISBN:9787302457435

所属分类:经济金融

书刊介绍

《大数据:从基础理论到最佳实践》内容简介

本书侧重于大数据的实践性技术,系统地介绍了主流大数据平台及工具的安装部署、管理维护和应用开发。平台和工具的选择均为当前业界主流的开源产品,因此,对于读者来说 本书涉及的开源技术包括:HDFS、MapReduce、YARN、Zookeeper、HBase、Hive、Sqoop、Storm、Kafka、Flume等。除介绍一般性的背景知识、安装部署、管理维护和应用开发技? 本书主要内容包括以下几大部分。
大数据存储篇:以HDFS为基础,介绍分布式文件系统的原理、安装、fs命令的使用、编程,介绍如何用HDFS实现,并通过HTTP调用。
大数据计算篇:以MapReduce、YARN为基础,介绍分布式计算的原理、部署,以及编程案例。
非关系型数据库篇:以HBase为基础,重点介绍非关系型数据库的优势、原理、部署,以及命令行使用,编程案例,与Sqoop配合使用等。
大数据仓库篇:以Hive、数据仓库等为基础,重点介绍数据的抽取、原理、部署、分析与编程。
大数据实时计算篇:以Storm、Kafka为基础,介绍实时计算的架构、组成、使用与开发。
本书非常适合从事大数据技术开发与使用的初学者,以及从事大数据技术研发的企事业单位工程师学习和参考,也适合高校计算机相关专业的专科生、本科生和研究生学习使用。
祁伟 主编。

作品目录

内容简介
前言
大数据存储篇
第1章:概述
1.1、什么是大数据
1.2、大数据的技术转型
1.3、数据分片
1.4、数据一致性
1.5、主流大数据技术
1.6、大数据职业方向
1.7、大数据实践平台的搭建
1.8、小结
第2章:HDFS文件系统
2.1、HDFS概述
2.2、HDFS的运行机制
2.3、HDFS的数据存储
2.4、HDFS的安装和配置
2.5、小结
第3章:HDFS操作实践
3.1、HDFS接口与编程
3.2、操作实践
3.3、小结
大数据计算篇
第4章:YARN
4.1、YARN概述
4.2、YARN的主要组成模块
4.3、YARN的整体设计
4.4、容量调度器
4.5、公平调度器(Fair
Scheduler)
4.6、资源管理者(RM)重启机制
4.7、资源管理器的高可用性(RM
HA)
4.8、节点标签
4.9、YARN编程
4.10、YARN服务注册
4.11、小结
第5章:MapReduce
5.1、MapReduce概述
5.2、Key-Value结构的特点
5.3、MapReduce的部署
5.4、MapReduce的程序结构
5.5、MapReduce的编程接口
5.6、MapReduce的命令行
5.7、WordCount的实现
5.8、小结
非关系型数据库篇
第6章:使用HBase
6.1、HBase基础
6.2、HBase的架构原理
6.3、HBase的命令实践
6.4、HBase的数据管理
6.5、HBase的集群管理
6.6、小结
第7章:HBase编程开发
7.1、HBase的编程接口
7.2、表与命名空间的编程
7.3、数据编程
7.4、集群与优化编程
7.5、小结
大数据仓库篇
第8章:数据仓库概论
8.1、初识数据仓库
8.2、数据仓库的核心概念
8.3、数据仓库中的数据内容划分
8.4、OLAP
8.5、ETL
8.6、调度和运行
8.7、数据仓库的架构
8.8、数据仓库的展望
8.9、小结
第9章:Hive
9.1、初识Hive
9.2、Hive命令行接口
9.3、Hive数据类型与常见的结构
9.4、HiveSQL
9.5、Hive的自定义函数
9.6、Hive的高级使用
9.7、使用Hive构建数据仓库
9.8、小结
大数据实时计算篇
第10章:Storm实时系统
10.1、大数据实时系统概述
10.2、Kafka分布式消息系统
10.3、Storm实时处理系统
10.4、小结
参考文献

相关推荐

微信二维码