大规模数据分析和建模:基于Spark与R

大规模数据分析和建模:基于Spark与R

作者:[美] 哈维尔·卢拉辛[美] 凯文·郭[美] 埃德加·鲁伊斯

出版社:机械工业

出版年:2022年2月

ISBN:9787111661016

所属分类:网络科技

书刊介绍

《大规模数据分析和建模:基于Spark与R》内容简介

这本书的目的是帮助所有人通过R使用Apache Spark。第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。
Javier Luraschi是大规模数据科学诸多库的发明者,包括sparklyr、r2d3、pins和cloudml。
Kevin Kuo构建了机器学习库,并领导了Kasa AI的开放保险研究。
Edgar Ruiz构建了企业级的数据解决方案工具,包括dbplot、tidypredict和modeldb。

作品目录

O’Reilly
Media,Inc.介绍
译者序
序言
前言
第1章:引言
1.1、概述
1.2、Hadoop
1.3、Spark
1.4、R
1.5、sparklyr
1.6、小结
第2章:开始
2.1、概述
2.2、预备操作
2.3、连接
2.4、使用Spark
2.5、断开连接
2.6、使用RStudio
2.7、资源
2.8、小结
第3章:分析
3.1、概述
3.2、数据导入
3.3、数据整理
3.4、可视化
3.5、建模
3.6、沟通
3.7、小结
第4章:建模
4.1、概述
4.2、探索性数据分析
4.3、特征工程
4.4、监督式学习
4.5、非监督式学习
4.6、小结
第5章:管道操作
5.1、概述
5.2、创建工作
5.3、用例
5.4、操作模式
5.5、交互性
5.6、部署
5.7、小结
第6章:集群
6.1、概述
6.2、本地化
6.3、云端
6.4、Kubernetes
6.5、工具
6.6、小结
第7章:连接
7.1、概述
7.2、本地模式
7.3、单机模式
7.4、YARN
7.5、Livy
7.6、Mesos
7.7、Kubernetes
7.8、云模式
7.9、批量模式
7.10、工具
7.11、多次连接
7.12、故障排除
7.13、小结
第8章:数据
8.1、概述
8.2、读取数据
8.3、写入数据
8.4、复制数据
8.5、文件格式
8.6、文件系统
8.7、存储系统
8.8、小结
第9章:调试
9.1、概述
9.2、配置
9.3、分区
9.4、缓存
9.5、重洗
9.6、序列化
9.7、配置文件
9.8、小结
第10章:扩展
10.1、概述
10.2、H2O
10.3、图模型
10.4、XGBoost
10.5、深度学习
10.6、基因组学
10.7、空间数据
10.8、故障排除
10.9、小结
第11章:分布式R
11.1、概述
11.2、用例
11.3、分区
11.4、分组
11.5、列
11.6、context参数
11.7、函数
11.8、程序包
11.9、集群需求
11.10、故障排除
11.11、小结
第12章:数据流
12.1、概述
12.2、转换
12.3、Kafka
12.4、Shiny
12.5、小结
第13章:社区贡献
13.1、概述
13.2、Spark
API
13.3、Spark扩展
13.4、使用Scala代码
13.5、小结
附录A
补充参考代码
作者介绍
封面介绍

相关推荐

微信二维码