Spark GraphX 实战

Spark GraphX 实战

作者:[美] 迈克尔·S.马拉克(Michael S.Malak)[美] 罗宾·伊斯特(Robin East)

出版社:电子工业

出版年:2017年4月

ISBN:9787121310430

所属分类:网络科技

书刊介绍

《Spark GraphX 实战》内容简介

本书是一本Spark GraphX入门书籍。前5章为基础内容,即使读者对Spark、GraphX、Scala不熟悉,也能快速上手;后5章为图计算进阶,主要是图算法和机器学习算法的相关内容。专门讲图计算的书很少,本书在第2、3、4章介绍了图的基础知识、GraphX基础知识、GraphX内置的图算法。第6章到第10章,主要介绍了GraphX之外的图算法、机器学习、图工具、GraphX监控和优化、GraphX的能力增强等实用技能。第9章和第10章主要介绍性能调优和监控,主要面向生产环境,有不少可以借鉴的技巧。本书面向对图计算感兴趣的读者,旨在帮助读者掌握Spark GraphX的相关知识及其应用。
迈克尔·S.马拉克(Michael S.Malak),一直从事软件开发工作,自2013年年初以来他一直用Spark为财富200强的公司做开发工作,经常进行演示和分享,特别是在科罗拉多州他住的丹佛/博尔德地区。他的个人技术博客的地址是http://technicaltidbit.com。
罗宾·伊斯特(Robin East),在一些大型企业曾担任过15年以上的顾问,在金融、政府、医疗保健和公共事业领域提供大数据和智能解决方案。他是Worldpay的数据科学家,帮助公司实现把数据用于核心业务上。可以在这里看到他在Spark、GraphX和机器学习方面的作品:https://mlspeed.wordpress.com。

作品目录

译者序
序言
致谢
关于本书
关于封面插图
第1部分
Spark和图
1、两项重要的技术:Sp1ark和图
1.1、Spark:超越Hadoop
MapReduce
1.2、图:挖掘关系中的含义
1.3、把快如闪电的图处理放到一起:Spark
GraphX
1.4、小结
2、GraphX快速入门
2.1、准备开始并准备数据
2.2、用Spark
Shell做GraphX交互式查询
2.3、PageRank算法示例
2.4、小结
3、基础知识
3.1、Scala——Spark的原生编程语言
3.2、Spark
3.3、图术语解释
3.4、小结
第2部分
连接顶点
4、GraphX
基础
4.1、顶点对象与边对象
4.2、mapping操作
4.3、序列化/反序列化
4.4、图生成
4.5、Pregel
API
4.6、小结
5、内置图算法
5.1、找出重要的图节点:网页排名
5.2、衡量连通性:三角形数
5.3、查找最少的跳跃:最短路径
5.4、找到孤岛人群:连通组件
5.5、受欢迎的回馈:增强连通组件
5.6、社区发现算法:标签传播
5.7、小结
6、其他有用的图算法
6.1、你自己的GPS:有权值的最短路径
6.2、旅行推销员问题:贪心算法
6.3、路径规划工具:最小生成树
6.4、小结
7、机器学习
7.1、监督、无监督、半监督学习
7.2、影片推荐:SVDPlusPlus
7.3、在MLlib中使用GraphX
7.4、穷人(简化版)的训练数据:基于图的半监督学习
7.5、小结
第3部分
更多内容
8、缺失的算法
8.1、缺失的基本图操作
8.2、读取RDF图文件
8.3、穷人(简化版)的图同构:找到Wikipedia缺失的信息
8.4、全局聚类系数:连通性比较
8.5、小结
9、性能和监控
9.1、监控Spark应用
9.2、Spark配置
9.3、Spark性能调优
9.4、图分区
9.5、小结
10、更多语言以及工具
10.1、在GraphX中使用除Scala外的其他语言
10.2、其他可视化工具:Apache
Zeppelin

d3.js
10.3、类似一个数据库:Spark
Job
Server
10.4、通过GraphFrames在Spark的图上使用SQL
10.5、小结
附录A
安装Spark
附录B
Gephi可视化软件
附录C
更多资源
附录D
本书中的Scala小贴士

相关推荐

微信二维码