大数据技术导论

大数据技术导论

作者:程显毅

出版社:机械工业

出版年:2019年4月

ISBN:9787111621713

所属分类:人物传记

书刊介绍

《大数据技术导论》内容简介

本书以面向应用、面向实战为指导思想,紧扣企业技术人才培养的特点,在知识点讲解和实验中避免复杂的理论,使读者能快速上手体验、验证大数据处理的魅力,以激发读者的学习兴趣。
本书覆盖了大数据生命周期中的主要技术要点,全书共8章,第1章介绍大数据的产生和特点及思维的变革,第2章了解大数据生态系统,第3~7章按照大数据的生命周期,分别讨论大数据采集与预处理、大数据管理、大数据分析、大数据可视化、大数据应用的基本原理和方法,第8章讨论大数据安全面临的挑战。
本书可作为本科、高职院校大数据技术或数据科学课程的参考书或教材,也可供数据科学相关技术人员阅读。
程显毅编著。

作品目录

前言
第1章:概论
1.1、揭秘大数据
1.1.1、大数据产生历史必然
1.1.2、大数据概念和特征
1.1.3、大数据生命周期
1.1.4、大数据与物联网、云计算、人工智能
1.1.5、大数据时代的八个重大变革
1.2、Linux系统概述
1.2.1、Linux版本
1.2.2、Linux系统目录结构
1.2.3、文本编辑器vi
1.2.4、文件权限解读
1.2.5、Linux系统常用命令
习题1、实验报告1、Linux实验
第2章:大数据生态系统
2.1、认识Hadoop
2.2、HDFS
2.2.1、HDFS体系结构
2.2.2、HDFS存储原理
2.2.3、HDFS常用操作
2.3、MapReduce
2.3.1、MapReduce逻辑结构
2.3.2、MapReduce操作案例
*2.4、Zookeeper
习题2、实验报告2、Hadoop实验
第3章:大数据采集与预处理
3.1、数据
3.1.1、数据是什么
3.1.2、数据分类
3.1.3、度量和维度
3.2、数据采集
3.2.1、数据采集分类
3.2.2、数据采集方法
3.2.3、数据采集工具
3.3、数据清洗
3.3.1、数据清洗原理
3.3.2、缺失值和异常数据
3.3.3、数据清洗基本操作
3.4、网络爬虫
3.4.1、爬虫简介
*3.4.2、论坛爬虫源代码分析
习题3、*实验报告3、网络爬虫
第4章:大数据管理
4.1、NoSQL
4.1.1、NoSQL概述
4.1.2、键值数据库
4.1.3、图数据库
4.1.4、文档数据库
4.1.5、列式数据库
4.1.6、云数据库
4.2、HBase
4.2.1、HBase模型
4.2.2、HBase与传统关系数据库的对比分析
4.2.3、HBase系统架构
4.2.4、HBase常用Shell命令
习题4、实验报告4、HBase实验
第5章:大数据分析
5.1、大数据分析概述
5.1.1、数据分析原则
5.1.2、大数据分析特点
5.1.3、大数据分析流程
5.1.4、数据分析师基本技能和素质
*5.1.5、大数据分析难点
*5.2、业务理解
5.2.1、什么是业务理解
5.2.2、如何理解业务
5.2.3、数据业务化
5.3、数据认知
5.3.1、数据变换
5.3.2、概率分析
*5.3.3、对比分析
*5.3.4、细分分析
*5.3.5、交叉分析
5.3.6、相关分析
5.4、特征工程
5.4.1、特征工程面临的挑战
5.4.2、特征选择
5.4.3、特征提取
5.4.4、指标设计
5.5、数据建模
5.5.1、模型分类
5.5.2、决策树
5.5.3、关联分析
5.5.4、回归分析
5.5.5、聚类分析
*5.5.6、k-邻近分类算法KNN
*5.6、通用计算引擎Spark
5.6.1、Spark简介
5.6.2、Spark与Hadoop差异
5.6.3、Spark适用场景
5.6.4、Spark运行模式
5.6.5、Spark常用术语
5.6.6、Spark编程实战——单词统计
5.7、大数据分析引擎Hive
5.7.1、数据仓库概念
5.7.2、传统数据仓库的问题
5.7.3、Hive特征
5.7.4、Hive系统架构
5.7.5、Hive应用案例
习题5、实验报告5、Hive实验
第6章:大数据可视化
6.1、数据可视化基本概念
6.1.1、为什么要数据可视化
6.1.2、什么是数据可视化
6.1.3、数据可视化的作用
6.1.4、数据可视化术语
6.1.5、数据可视化三要素
6.2、常用图形
6.2.1、饼图(扇形图)
6.2.2、堆积柱形图
6.2.3、风玫瑰图
6.2.4、柱状图
6.2.5、直方图
6.2.6、气泡图
6.2.7、散点图矩阵
6.2.8、折线图
6.2.9、面积图
6.2.10、相关系数图
6.2.11、雷达图
6.2.12、箱线图
6.3、数据可视化设计
6.3.1、数据可视化设计原则
6.3.2、数据可视化=数据+设计+故事
6.3.3、数据可视化图形选择建议
6.4、数据可视化工具
6.4.1、基本工具
6.4.2、进阶工具
6.5、基于R语言可视化基础
6.5.1、基本绘图命令
6.5.2、ggplot2绘图
习题6、*实验报告6、可视化实验
第7章:大数据应用
7.1、零售行业大数据
7.1.1、沃尔玛的购物篮分析
7.1.2、农夫山泉用海量照片提升销量
7.2、交通大数据
7.2.1、交通拥堵大数据分析
7.2.2、预测起飞时间
7.3、医疗大数据
7.3.1、移动医疗与个人健康
7.3.2、基因测序——精准治癌正在成为现实
习题7、第8章:大数据安全
8.1、大数据安全的重要意义
8.2、大数据面临的挑战
8.3、大数据的安全威胁
8.3.1、大数据基础设施安全威胁
8.3.2、大数据存储安全威胁
8.3.3、大数据的隐私泄露
8.3.4、大数据的其他安全威胁
8.4、大数据与网络攻击监测
8.5、大数据安全分析
8.6、大数据安全标准
8.6.1、基础标准类
8.6.2、平台和技术类
8.6.3、数据安全类
8.6.4、服务安全类
8.6.5、应用安全类
8.7、大数据安全技术
习题8、附录
大数据软件安装
A.1、基础环境准备
A.2、安装JDK
A.3、安装Hadoop
A.4、安装Zookeeper
A.5、安装HBase
A.6、安装Hive
参考文献

相关推荐

微信二维码