自己动手做大数据系统(第2版)

自己动手做大数据系统(第2版)

作者:刘未昕张粤磊张魁吴茂贵

出版社:电子工业

出版年:2020年4月

ISBN:9787121382024

所属分类:人生哲学

书刊介绍

《自己动手做大数据系统(第2版)》内容简介

《自己动手做大数据系统(第2版)》在第1版的基础上,介绍大数据的时代背景及应用方案、常用的离线大数据和流式大数据组件,以及基于云平台的容器级数据平台搭建。书中以离线大数据和流式大数据两个具体示例,贯穿本书的第二、三部分内容,对组件之间的协同工作关系进行剖析。书中的代码部分基本上使用Python编写,用户可以下载参考。
如果你是一位在校学生、Python编程爱好者或是想转行从事大数据工作的在职IT人员,阅读本书必有所收获! 刘未昕,从事IT研发和项目管理工作十余年。使用多种主流程序设计语言,深耕于大数据应用及人工智能技术,多年从事金融、数据仓库、智慧医疗等领域的研发工作。
张粤磊,平安壹钱包前大数据架构师。业内知名大数据专家,多本大数据畅销书的作者。
张魁,虚拟化工程师,OpenStack架构师,苏州某高校云平台架构师,十余年Linux系统运维实践及虚拟化开发经验,4年Linux系统补丁开发经验。
吴茂贵,运筹学与控制论专业研究生学历。毕业后主要参与数据仓库、商务智能等方面的项目,期间做过数据处理、数据分析、数据挖掘等工作,行业涉及金融、物流、制造业等。

作品目录

内容简介
前言
序言
第一部分
大数据概述
第1章:大数据的时代背景及应用落地
1.1、大数据与“云大物区智”的关联
1.2、大数据平台的应用优势
1.3、大数据平台的技术架构选型和产品对比
第2章:大数据系统的安装及配置
2.1、服务器及操作系统的准备
2.2、JDK、Python和Scala
2.3、Hadoop
2.4、Sqoop
2.5、Hive
2.6、ZooKeeper和HBase
2.7、Flume
2.8、Kafka
2.9、Spark
2.10、Flink
2.11、开源大数据系统各组件的组合
2.12、CDH
2.13、FusionInsight
2.14、小结
第二部分
离线大数据处理
第3章:使用Python爬虫获取数据
3.1、Python爬虫模块的安装
3.2、抓取并解析JSON数据
3.3、抓取并解析HTML中的数据
3.4、使用Python提取文章的关键字
3.5、小结
第4章:Hive在大数据中的角色
4.1、Hive的核心概念及配置使用
4.2、概要设计和物理模型的创建
4.3、加载爬虫数据
4.4、数据的合并、去重和转换
4.5、使用UDF实现数据的转换
4.6、使用Python操作Hive
4.7、ETL数据调度和数据治理
4.8、小结
第5章:使用HBase实现大数据存储
5.1、非关系型数据库及HBase
5.2、HBase的几个核心概念
5.3、HBase数据操作命令
5.4、使用Python操作HBase
5.5、把Hive数据导入HBase
5.6、用Hive外部表读取HBase数据
5.7、小结
第6章:Spark数据分析引擎
6.1、Spark简介
6.2、Spark集群的配置及启动
6.3、调用Hive数据
6.4、调用HBase数据
6.5、使用PySpark进行数据分析
6.6、小结
第7章:使用Flask实现数据展示
7.1、Flask框架简介及站点搭建流程
7.2、Flask微框架的特性
7.3、使用MVC模式搭建项目框架
7.4、检索及加载新闻数据
7.5、小结
第二部分技术点总结
第三部分
流式大数据处理
第8章:使用Flume获取网站访问日志
8.1、Flume的安装及数据流模型
8.2、核心组件的配合使用
8.3、各种数据组合的流动方式
8.4、Apache服务器的日志格式
8.5、合并两个网站的日志
8.6、小结
第9章:Kafka的安装、配置及其与Flume的整合
9.1、Kafka的特性及安装、配置
9.2、几种术语
9.3、Broker的使用方法
9.4、分布式生产者/消费者
9.5、Kafka
Connector
9.6、Kafka和Flume的整合
9.7、使用Python连接Kafka
9.8、小结
第10章:Redis数据库简介
10.1、Redis的特点及适用场景
10.2、Redis的安装及命令行使用方法
10.3、使用Python操作Redis
10.4、使用Java操作Redis
10.5、小结
第11章:Flink简介及其与Kafka的整合
11.1、Flink概述及其与Spark的区别
11.2、Flink的架构、特性及工作流程
11.3、Flink的安装
11.4、Flink的作业提交方式
11.5、Flink-Kafka
Connector
11.6、使用Flink统计PageView
11.7、小结
第12章:网站页面访问量的动态展示
12.1、百度的ECharts图表功能简介
12.2、页面访问量的动态统计
12.3、生成词云图和占比饼图
12.4、访问日志检索
12.5、小结
第三部分技术点总结
第四部分
云平台搭建
第13章:搭建基于云平台的容器级数据系统
13.1、云平台
13.2、基于云平台的容器集群
13.3、基于容器的大数据系统
13.4、小结

相关推荐

微信二维码