大数据猩球-海量数据处理实践指南 内容简介
从超大规模的事件流中发现模式可能很困难,但是学习如何发现这些模式却不见得很难。这本实战指南告诉我们如何利用apache hadoop,使用简单、有趣、精致的工具,解决大规模数据处理中的模式发现以及很多其他问题。通过处理真实数据、解决现实问题,你将对大数据有一个实用的、可操作的认识。本书非常适合hadoop新手,也很适合那些想要提升技能的有经验的实践家。其中,*部分解释了hadoop和mapreduce的工作原理,第二部分讲述了很多数据处理用到的分析模式。通过一些练习,你还将学会如何使用apache pig进行数据处理。■ 学习使用hadoop的必要原理,包括数据和计算在集群中的移动行为■ 深入理解mapreduce机制,用python创建你的*个mapreduce作业■ 理解如何以pig脚本的形式运行mapreduce作业链■ 全书使用真实数据集,即棒球统计数据集■ 提供分析模式的示例,并学习何时何地使用这些分析模式
大数据猩球-海量数据处理实践指南 本书特色
本书以实用的、可操作的视角解释了大数据——采用黑猩猩和大象的隐喻,基于棒球统计数据集,使用apache hadoop和pig等工具展示了如何处理大规模数据。此外,通过处理真实数据、解决现实问题,作者还以实例的形式总结了一些实践分析模式,为有创造力的分析人员提供了*强大、*有价值的方法。本书特别适合那些需要大数据工具箱来解决实际问题的人们。
大数据猩球-海量数据处理实践指南 目录
前言 ..................................................................................................xi**部分入门 :理论和工具第 1 章hadoop 基础 ........................................................................3黑猩猩和大象创业 .................................................................................................................4map-only 作业 :逐个处理记录 ...........................................................................................5pig latin map-only 作业........................................................................................................6创建 docker hadoop 集群 ......................................................................................................8运行作业 .......................................................................................................................12小结 .......................................................................................................................................15第 2 章mapreduce........................................................................17黑猩猩和大象拯救圣诞节 ...................................................................................................17玩具岛上的麻烦 ...........................................................................................................17黑猩猩把信件变成带标签的玩具表 ...........................................................................19小象将玩具表送到适当的工作台 .......................................................................................21示例 :驯鹿游戏 ...................................................................................................................23ufo 数据 ......................................................................................................................24根据报道延迟对 ufo 目击分组 .................................................................................24mapper ..........................................................................................................................24reducer .........................................................................................................................26数据可视化 ...................................................................................................................29驯鹿小结 .......................................................................................................................30hadoop 与传统数据库 .........................................................................................................30mapreduce 俳句 ...................................................................................................................31map 阶段简述 ..............................................................................................................32group-sort 阶段简述 ...................................................................................................32reduce 阶段简述 ..........................................................................................................32小结 .......................................................................................................................................33第 3 章棒球数据集速览 ..................................................................35数据 .......................................................................................................................................35缩略词和术语 .......................................................................................................................36规则和目标 ...........................................................................................................................37评价指标 ...............................................................................................................................37小结 .......................................................................................................................................38第 4 章pig 入门 ..............................................................................39pig 帮助 hadoop 处理数据表,而不是记录 ......................................................................39维基百科访问数统计 ....................
大数据猩球-海量数据处理实践指南 作者简介
Philip Kromer是云大数据平台领先者Infochimps的创始人和CTO,以及Vigilante的联合创始人。他的其中一个项目WuKong,是Hadoop Ruby流处理最常使用的框架之一。__eol__Russell Jurney是全球经济市场地图创业公司Relato的创始人和CEO。他曾任LinkedIn产品分析数据科学家,还是一个Hadoop传道士。唐李洋,女,博士,中国电子科技集团公司第三十八研究所,工程师,目前从事公共安全等领域相关的大数据分析与数据挖掘工作。译有《高可用MySQL》(第1和第2版)、《R语言高性能编程》等书。