MapReduce 2.0源码分析与编程实战

MapReduce 2.0源码分析与编程实战

作者:王晓华

出版社:人民邮电

出版年:2014年1月

ISBN:9787115332370

所属分类:历史文化

书刊介绍

《MapReduce 2.0源码分析与编程实战》内容简介

Hadoop是一种分布式数据和计算的框架,在大数据处理中应用非常广泛。MapReduce是一种编程模型。Hadoop正是以MapReduce作为核心编程模型的。
本书比较系统地介绍了新一代MapReduce 2.0的理论体系、架构和程序设计方法。全书分为10章,系统地介绍了HDFS存储系统,Hadoop的文件I/O系统,MapReduce 2.0的框架结构和源码分析,MapReduce 2.0的配置与测试,MapReduce 2.0运行流程,MapReduce 2.0高级程序设计以及相关特性等内容。《MapReduce 2.0源码分析与编程实战》最后部分介绍了数据挖掘的初步知识,以及不同应用类型的MapReduce 2.0编程实战。
本书强调理论联系实际,帮助读者在掌握MapReduce 2.0基本知识和特性的基础上,培养实际编程和解决大数据处理相关问题的能力。《MapReduce 2.0源码分析与编程实战》可作为学习MapReduce 2.0的源码、MapReduce 2.0程序设计、数据挖掘、机器学习等相关内容的程序设计人员的培训和自学读物,也可以作为高等院校相关专业的教学辅导书。
王晓华:高校资深计算机专业讲师,给研究生和本科生讲授面向对象程序设计、数据结构、 Hadoop程序设计等相关课程。主要研究方向为云计算、数据挖掘。曾主持和参与多项国家和省级科研课题,独立完成一项科研成果获省级成果认定,发表过多篇论文,申请一项专利。

作品目录

MapReduce
2.0源码分析与编程实战

前言
第1章:大象也会跳舞
1.1、大数据时代
1.2、大数据分析时代
1.3、简单、粗暴、有效——这就是Hadoop
1.4、MapReduce与Hadoop
1.5、看,大象也会跳舞
本章小结
第2章:大象的肚子——HDFS文件系统详解
2.1、HDFS基础详解
2.2、HDFS数据存取流程分析
2.3、HDFS命令行操作详解
2.4、通过Web浏览HDFS文件
2.5、HDFS接口使用详解
2.6、HDFS文件同步与并发访问
本章小结
第3章:“吃下去吐出来”——Hadoop文件I/O系统详解
3.1、Hadoop的压缩类型介绍
3.2、Hadoop的压缩类库
3.3、I/O中序列化类型详解
3.4、实现自定义的Writable类型
3.5、Hadoop中小文件处理详解
本章小结
第4章:“大象的大脑”——MapReduce框架结构与源码分析
4.1、MapReduce框架结构与源码分析
4.2、编程实战:经典的MapReduce单词计数程序
4.2.4、计数程序的main方法
本章小结
第5章:深入!MapReduce配置与测试
5.1、MapReduce环境变量配置详解
5.2、使用MRUnit对MapReduce进行测试
5.3、在本地磁盘上进行MapReduce测试
5.4、MapReduce计数器
本章小结
第6章:大象的思考流程——MapReduce运行流程详解
6.1、经典MapReduce任务的工作流程
6.2、经典MapReduce任务异常处理详解
6.3、经典MapReduce任务的数据处理过程
6.4、MapReduce
2.0(YARN)工作流程详解
本章小结
第7章:更强的大象——MapReduce高级程序设计续
7.1、MapReduce程序设计默认格式类型详解
7.2、InputFormat输入格式详解
7.3、OutputFormat输出格式详解
7.4、多种输入与输出使用介绍
本章小结
第8章:MapReduce相关特性详解
8.1、MapReduce计数器
8.2、排序与查找
8.3、对输出结果的值分组排序
8.4、编程实战:使用二次排序自动查找最小值
本章小结
第9章:啤酒与尿布——MapReduce连接与数据挖掘初步
9.1、对于同样格式数据进行MapReduce连接
9.2、对于不同格式数据进行MapReduce连接
9.3、不能说的秘密—啤酒与尿布
9.4、数据挖掘初步
本章小结
第10章:MapReduce实战编程及深度分析
10.1、编程实战:自定义数据库中读取数据
10.2、编程实战:串联寻找共同转载微博
10.3、编程实战:云存储模型
10.4、编程实战:多文档相似关键字检索
10.5、编程实战:学生成绩整理与分组
本章小结

相关推荐

微信二维码