企业级大数据项目实战:用户搜索行为分析系统从0到1

企业级大数据项目实战:用户搜索行为分析系统从0到1

作者:张伟洋

出版社:清华大学

出版年:2023年6月

ISBN:9787302630906

所属分类:网络科技

书刊介绍

《企业级大数据项目实战:用户搜索行为分析系统从0到1》内容简介

本书基于真实业务场景,以项目导向为主线,从0到1全面介绍“企业级大数据用户搜索行为分析系统”的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解“用户行为数据采集模块”的开发,第4章讲解“用户行为数据离线分析模块”的开发,第5章讲解“用户行为数据实时分析模块”的开发,这3章采用项目导向的方式,让读者参与实际开发过程;第6章讲解“数据可视化模块”的开发,并整合各模块,测试数据流转,完成项目的开发与部署。
本书项目源自真实业务场景,目的是使读者通过实际项目来理解理论知识并提高实践能力。本书适合缺乏大数据项目经验的从业者阅读,也适合作为高等院校大数据专业的教学用书。
张伟洋,从业近10年,大数据领域资深专家,拥有多年知名互联网公司软件研发经验,曾在互联网旅游公司任软件研发事业部经理。目前从事大数据项目讲师工作,先后多次为各大高校举行大数据专题讲座,对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有着深入的研究。已出版《Flink大数据分析实战》《Hadoop 3.x大数据实战》等图书。

作品目录

前言
第1章:项目需求描述
1.1、项目需求
1.2、项目数据流设计
1.3、项目架构设计
1.4、集群角色规划
1.5、项目开发环境介绍
第2章:项目开发环境准备
2.1、VMware中安装CentOS
7操作系统
2.2、Linux系统环境配置
2.3、安装JDK
2.4、克隆虚拟机
2.5、配置主机IP映射
2.6、配置集群各节点SSH无密钥登录
2.7、搭建Hadoop分布式集群
2.8、动手练习
第3章:用户行为数据采集模块开发
3.1、用户行为数据来源
3.2、使用Flume采集用户行为数据
3.3、使用Kafka中转用户行为数据
3.4、Flume数据实时写入Kafka
3.5、使用HBase存储用户行为数据
3.6、Flume数据实时写入HBase
3.7、动手练习
第4章:用户行为数据离线分析模块开发
4.1、Hive安装
4.2、Hive数据库操作
4.3、Hive表操作
4.4、Hive离线分析用户行为数据
4.5、Hive集成HBase分析用户行为数据
4.6、Spark集群的搭建
4.7、Spark应用程序的提交
4.8、Spark
RDD算子运算
4.9、使用IntelliJ
IDEA创建Scala项目
4.10、Spark
WordCount项目的创建与运行
4.11、Spark
RDD读写HBase
4.12、使用Spark
SQL实现单词计数
4.13、Spark
SQL数据源操作
4.14、Spark
SQL与Hive整合分析
4.15、Spark
SQL整合MySQL存储分析结果
4.16、Spark
SQL热点搜索词统计
4.17、Spark
SQL搜索引擎每日UV统计
4.18、动手练习
第5章:用户行为数据实时分析模块开发
5.1、Spark
Streaming程序编写
5.2、Spark
Streaming数据源
5.3、DStream操作
5.4、Spark
Streaming按批次累加单词数量
5.5、Spark
Streaming整合Kafka计算实时单词数量
5.6、Structured
Streaming快速实时单词计数
5.7、Structured
Streaming编程模型
5.8、Structured
Streaming查询输出
5.9、Structured
Streaming窗口操作
5.10、Structured
Streaming消费Kafka数据实现单词计数
5.11、Structured
Streaming输出计算结果到MySQL
5.12、动手练习
第6章:数据可视化模块开发
6.1、IDEA搭建基于SpringBoot的Web项目
6.2、WebSocket数据实时推送
6.3、使用ECharts进行前端视图展示
6.4、多框架整合实时分析用户行为日志数据流
6.5、动手练习

相关推荐

微信二维码