大数据技术入门(第2版)

大数据技术入门(第2版)

作者:杨正洪

出版社:清华大学

出版年:2020年1月

ISBN:9787302547969

所属分类:网络科技

书刊介绍

《大数据技术入门(第2版)》内容简介

目前国内大数据市场继续保持高速的发展态势,作者在与地方政府、证券金融公司的项目合作中发现,他们对大数据技术很感兴趣,并希望从大数据技术、采集、存储、访问、安全、分析与开发等方面得到指导和帮助。因此编写了这本大数据技术的入门书。
本书共12章,以Hadoop和Spark框架为线索,比较全面地介绍了Hadoop技术、Spark技术、大数据存储、大数据访问、大数据采集、大数据管理、大数据分析、大数据开发、大数据环境自动化部署(Docker和K8s)等内容。
本书适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员、IT经理、CTO、CIO等快速学习大数据技术。本书也可以作为高等院校和培训学校相关专业的培训教材。
杨正洪 毕业于美国State University of New York at Stony Brook,在美国硅谷从事AI和大数据相关研发工作10多年,华中科技大学和中国地质大学客座教授,湖北省2013年海外引进人才,拥有多项国家专利。参与了大数据和人工智能的国家标准的制定,在2016年参与了公安部主导的“信息安全技术:大数据平台安全管理产品安全技术要求”的国家标准制定。作者还是中关村海外智库专家顾问和住建部中规院专家顾问,担任了在美上市公司CTO、北京某国企CIO和上海某国企高级副总裁等职。多年从事人工智能与大数据技术的工作,出版了《智慧城市》等多本书籍。

作品目录

内容简介
前言
本书内容组织
作者与技术支持邮箱
第1章:大数据时代
1.1、什么是大数据
1.2、大数据与云计算的关系
1.3、Hadoop和云平台的应用实例
1.4、数据湖(Data
Lake)
1.5、企业如何走向大数据
第2章:大数据软件框架
2.1、Hadoop框架
2.2、Spark(内存计算框架)
2.3、实时流处理框架
2.4、云端消息队列
2.5、框架的选择
2.6、Hadoop发行版
2.7、Mac上安装Hadoop
2.8、Linux上安装Hadoop
2.9、AWS云平台上安装Hadoop
第3章:大数据集群
3.1、集群实例分析
3.2、YARN
3.3、资源的调度器
3.4、深入研究Resource
Manager
3.5、集群配置文件总览
3.6、自动伸缩(Auto
Scaling)集群
3.7、迁移Hadoop集群
3.8、增加Instance
第4章:大数据存储:文件系统和云存储
4.1、HDFS
shell命令
4.2、配置HDFS
4.3、HDFS
API编程
4.4、HDFS
API总结
4.5、HDFS文件格式
4.6、云存储S3、第5章:大数据存储:数据库
5.1、NoSQL
5.2、HBase概述
5.3、HBase编程
5.4、其他NoSQL数据库
5.5、云数据库
第6章:大数据访问:SQL引擎层
6.1、Phoenix
6.2、Hive
6.3、Pig
6.4、ElasticSearch(全文搜索引擎)
6.5、Presto
第7章:大数据采集和导入
7.1、Flume
7.2、Kafka
7.3、Sqoop
7.4、Storm
7.5、Amazon
Kinesis
7.6、其他工具
第8章:大数据安全管控
8.1、数据主权和合规性
8.2、云端安全
8.3、云端监控
8.4、云端备份和恢复
8.5、大数据安全
第9章:大数据快速处理平台:Spark
9.1、Spark框架
9.2、Spark
Shell
9.3、Spark编程
9.4、RDD
9.5、Spark
SQL
9.6、Spark
Streaming
第10章:大数据分析
10.1、数据科学
10.2、预测分析
10.3、机器学习
10.4、算法
10.5、大数据分析总体架构
10.6、微服务
第11章:大数据环境自动化部署:Docker和Kubernetes
11.1、什么是Docker?
11.2、镜像文件
11.3、Docker安装
11.4、Dockerfile文件
11.5、Service(服务)
11.6、Swarm
11.7、Stack
11.8、Kubernetes
第12章:大数据开发管理
12.1、CI/CD(持续集成/持续发布)
12.2、代码管理工具GitHub
12.3、项目管理JIRA
12.4、项目构建工具Maven
12.5、大数据软件测试
附录1、数据量的单位级别
附录2、AWS
EC2创建步骤
附录3、分布式监控系统Ganglia
附录4、auth-ssh脚本

相关推荐

微信二维码