企业级大数据项目实战：用户搜索行为分析系统从0到1-网络科技-文化科教-太极之巅书单号

书刊介绍

《企业级大数据项目实战：用户搜索行为分析系统从0到1》内容简介

本书基于真实业务场景，以项目导向为主线，从0到1全面介绍“企业级大数据用户搜索行为分析系统”的搭建过程。全书共6章，第1章讲解项目需求与架构设计，详细阐述项目数据流与系统架构；第2章介绍大数据项目开发环境配置，手把手带领读者配置操作系统、Hadoop集群与相关工具，为后续项目实施打下基础；第3～5章逐步实现项目需求，第3章讲解“用户行为数据采集模块”的开发，第4章讲解“用户行为数据离线分析模块”的开发，第5章讲解“用户行为数据实时分析模块”的开发，这3章采用项目导向的方式，让读者参与实际开发过程；第6章讲解“数据可视化模块”的开发，并整合各模块，测试数据流转，完成项目的开发与部署。
本书项目源自真实业务场景，目的是使读者通过实际项目来理解理论知识并提高实践能力。本书适合缺乏大数据项目经验的从业者阅读，也适合作为高等院校大数据专业的教学用书。
张伟洋，从业近10年，大数据领域资深专家，拥有多年知名互联网公司软件研发经验，曾在互联网旅游公司任软件研发事业部经理。目前从事大数据项目讲师工作，先后多次为各大高校举行大数据专题讲座，对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有着深入的研究。已出版《Flink大数据分析实战》《Hadoop 3.x大数据实战》等图书。

作品目录

前言
第1章：项目需求描述
1.1、项目需求
1.2、项目数据流设计
1.3、项目架构设计
1.4、集群角色规划
1.5、项目开发环境介绍
第2章：项目开发环境准备
2.1、VMware中安装CentOS
7操作系统
2.2、Linux系统环境配置
2.3、安装JDK
2.4、克隆虚拟机
2.5、配置主机IP映射
2.6、配置集群各节点SSH无密钥登录
2.7、搭建Hadoop分布式集群
2.8、动手练习
第3章：用户行为数据采集模块开发
3.1、用户行为数据来源
3.2、使用Flume采集用户行为数据
3.3、使用Kafka中转用户行为数据
3.4、Flume数据实时写入Kafka
3.5、使用HBase存储用户行为数据
3.6、Flume数据实时写入HBase
3.7、动手练习
第4章：用户行为数据离线分析模块开发
4.1、Hive安装
4.2、Hive数据库操作
4.3、Hive表操作
4.4、Hive离线分析用户行为数据
4.5、Hive集成HBase分析用户行为数据
4.6、Spark集群的搭建
4.7、Spark应用程序的提交
4.8、Spark
RDD算子运算
4.9、使用IntelliJ
IDEA创建Scala项目
4.10、Spark
WordCount项目的创建与运行
4.11、Spark
RDD读写HBase
4.12、使用Spark
SQL实现单词计数
4.13、Spark
SQL数据源操作
4.14、Spark
SQL与Hive整合分析
4.15、Spark
SQL整合MySQL存储分析结果
4.16、Spark
SQL热点搜索词统计
4.17、Spark
SQL搜索引擎每日UV统计
4.18、动手练习
第5章：用户行为数据实时分析模块开发
5.1、Spark
Streaming程序编写
5.2、Spark
Streaming数据源
5.3、DStream操作
5.4、Spark
Streaming按批次累加单词数量
5.5、Spark
Streaming整合Kafka计算实时单词数量
5.6、Structured
Streaming快速实时单词计数
5.7、Structured
Streaming编程模型
5.8、Structured
Streaming查询输出
5.9、Structured
Streaming窗口操作
5.10、Structured
Streaming消费Kafka数据实现单词计数
5.11、Structured
Streaming输出计算结果到MySQL
5.12、动手练习
第6章：数据可视化模块开发
6.1、IDEA搭建基于SpringBoot的Web项目
6.2、WebSocket数据实时推送
6.3、使用ECharts进行前端视图展示
6.4、多框架整合实时分析用户行为日志数据流
6.5、动手练习