数据科学是将数据转化为行动的艺术,是综合了统计学、计算机科学和领域知识的新兴学科。数据科学与很多传统学科的最大区别在于其为应用而生,因此本书一切从实际应用出发,以R语言为核心工具,介绍了各类分析方法的实现及其在各领域的应用情况。
如果是初学者,可以从“编程篇”开始阅读,了解R语言的基本特点。如果是程序员,在迅速掌握语法后,可以深入研究“模型篇”,学习如何用统计学和其他流行的分析方法来描绘复杂的数据世界。如果关心数据价值的落地,“应用篇”必不负你所望,金融、制药、文本挖掘、社交网络、地理信息、高性能计算、可重复研究,这些最热门的行业和应用领域的案例将会为你带来数据应用的最真实的体验。
本书适用于所有对数据应用感兴趣的读者,也适合作为统计和数据分析的实务操作型课程的教材。
序言
前言
第1章 引言:数据科学与R
1.1 数据科学简介
1.1.1 什么是数据科学?
1.1.2 如何成为数据科学家?
1.2 R 语言简介
1.2.1 什么是R ?
1.2.2 如何学习R 语言?
1.2.3 R 的安装和配置
1.2.4 R 的常用编辑器
1.2.5 R 的第一步
1.3 如何使用本书?
1.3.1 排版和代码环境
1.3.2 测试环境
1.3.3 本书相关资源
第一部分 编程篇
第2章 数据对象
2.1 基本对象
2.1.1 向量入门
2.1.2 向量的生成
2.1.3 向量的计算
2.2 复合对象
2.2.1 矩阵
2.2.2 数据框
2.2.3 列表
2.3 特殊对象
2.3.1 缺失值与空值
2.3.2 连接
2.3.3 公式
2.3.4 表达式
2.3.5 环境
2.3.6 函数
第3章 数据操作
3.1 向量化操作
3.2 数据转换整理
3.2.1 取子集和编码转换
3.2.2 长宽格式互转
3.2.3 数据的拆分和合并
3.3 输入与输出
3.3.1 控制台的输入和输出
3.3.2 文本文件
3.3.3 表格型文件
3.3.4 其他外部文件
3.4 时间相关数据的处理
3.4.1 时间类数据处理
3.4.2 时间序列类数据
3.4.3 时间数据处理实例
第4章 控制语句与函数
4.1 控制语句
4.1.1 条件判断
4.1.2 循环
4.2 函数
4.3 函数式编程
4.4 工程开发的相关函数
4.4.1 程序调试
4.4.2 异常处理
第5章 面向对象
5.1 对象导论
5.1.1 面向对象的思想
5.1.2 面向对象编程的特性
5.1.3 R 的内置对象
5.2 S3
5.2.1 初识S3
5.2.2 面向对象的实现
5.3 S4
5.3.1 类的定义
5.3.2 对象的实例化
5.3.3 泛型函数和多态
5.4 引用对象
第二部分 模型篇
第6章 统计模型与回归分析
6.1 线性回归
6.1.1 回归模型和经典假设
6.1.2 参数估计
6.1.3 模型预测
6.1.4 离散自变量的情况
6.2 模型的诊断
6.2.1 非正态性
6.2.2 非线性
6.2.3 异方差
6.2.4 自相关
6.2.5 异常值
6.2.6 多重共线性
6.3 线性回归的扩展
6.3.1 非线性回归
6.3.2 非参数回归
6.3.3 Logistic 回归
第7章 其他统计分析方法
7.1 假设检验
7.2 多元分析
7.2.1 主成分分析
7.2.2 对应分析
7.2.3 多元分析的可视化
7.3 时间序列
7.4 随机模拟
7.4.1 随机变量与分布
7.4.2 蒙特卡洛方法
第8章 数据挖掘和机器学习
8.1 一般挖掘流程
8.2 聚类
8.2.1 层次聚类
8.2.2 K 均值聚类
8.2.3 基于密度的聚类
8.2.4 自组织映射
8.3 分类
8.3.1 决策树模型
8.3.2 贝叶斯分类
8.3.3 最近邻分类
8.3.4 神经网络分类
8.3.5 支持向量机分类
8.3.6 集成学习与随机森林
第9章 最优化方法
9.1 无约束非线性规划
9.2 线性规划
9.2.1 整数规划
9.2.2 Rglpk 简介
9.3 约束非线性规划
9.4 遗传算法
第10章 数据可视化
10.1 R 语言可视化简介
10.1.1 什么是数据可视化
10.1.2 R 语言的可视化环境
10.1.3 ggplot2 入门
10.2 分布的特征
10.3 比例的构成
10.4 时间的变化
10.5 R 与交互可视化
第三部分应用篇
第11章 R在热门行业中的应用
11.1 R 与金融分析
11.1.1 金融数据获取和操作
11.1.2 资产特征描述
11.1.3 最优资产组合
11.1.4 期权定价计算
11.2 R 与新药研发
11.2.1 新药研发简介
11.2.2 药动学和药效学
11.2.3 建模和模拟
第12章 R与互联网文本挖掘
12.1 网络数据获取
12.1.1 XML 与XPath
12.1.2 RCurl 抓取网页
12.1.3 Rweibo 与OAuth
12.2 中文文本处理
12.2.1 文本处理
12.2.2 正则表达式
12.2.3 中文分词
12.3 文本挖掘
12.3.1 文本对象
12.3.2 基本操作
12.3.3 分析方法
第13章 大数据时代下的R
13.1 地理信息数据
13.1.1 空间数据对象
13.1.2 R 与GIS 的结合
13.1.3 互联网地理信息
13.2 社交网络数据
13.2.1 R 与网络数据
13.2.2 R 与Gephi 的结合
13.3 图像数据
13.3.1 图像数据的处理
13.3.2 图像识别
第14章 可重复的数据分析
14.1 基于Sweave 的报告
14.1.1 LATEX 与Sweave
14.1.2 R 的Vignettes
14.2 基于knitr 的报告
14.2.1 Markdown 简介
14.2.2 knitr 和LATEX
14.2.3 报告中的图片
14.2.4 xtable 与表格生成
14.2.5 slidify 与幻灯片
14.3 基于Office 的报告
14.3.1 R2PPT
14.3.2 ReporteRs
第15章 R与其他系统的交互
15.1 R 与Excel
15.1.1 安装DCOM 环境
15.1.2 安装RExcel
15.1.3 RExcel 的使用
15.2 R 与数据库
15.2.1 DBI 和RSQLite
15.2.2 RODBC 简介
15.3 R 与JAVA
15.3.1 安装Java 环境
15.3.2 Java 调用R
15.3.3 R 调用Java
15.4 R 与Microsoft Visual Studio
15.4.1 R 与VB
15.4.2 R 与C#
第16章 R与高性能运算
16.1 性能的度量与函数编译
16.2 代数运算库的优化
16.2.1 不同优化版本的实现
16.2.2 性能对比
16.3 超出内存的限制
16.3.1 内存管理机制
16.3.2 内存性能的优化
16.3.3 内存外运算
16.4 并行计算
16.4.1 Rmpi 与显式并行
16.4.2 parallel 包的应用
16.4.3 RHadoop 简介
后记
编后记
参考文献
索引
《Android技术内幕:系统卷》是国内首本系统对Android的源代码进行深入分析的著作。全书将Android系统从构架上依次分为应用层、应
本书首先从软件需求实践中出现的主要问题和困难入手,指出了改进的主要方向;然后逐一说明了需求定义、需求捕获、需求分析与建模
《新媒体用户研究》内容简介:《新媒体用户研究》关照新媒体时代的人,探究人与新媒体之间的互动关系,以及在新媒体作用下人与人的
《从1到N:企业数字化生存指南》内容简介:随着新技术的发展成熟,所有的行业都会受到数字化的冲击,区别仅是程度和时间而已。在一
C程序员在编写程序时手头一定要有这本书。在这本书中,C语言专家PeterPrinz和TonyCrawford为你提供大量的编程参考信息。全书叙述
《房地产大转型的“互联网+”路径》中国正在快速步入移动互联网时代,线下向线上的人口大迁移浪潮深刻改变着人们生活的方方面面,
《无线通信》重点论述当前各类无线通信系统中具有普遍性和代表性的基本知识,包括基本的理论、问题、设计思路和分析方法。全书内
《神奇的烧脑思维游戏书》内容简介:这是一本全面提升孩子学习兴趣、阅读技巧、文学知识、科学素养、审美情趣的诚意之作。本书细分
视觉显著性检测方法及应用 内容简介 视觉显著性检测是计算机视觉领域近年来的一个研究热点,具有广泛的应用前景。本书介绍了视觉显著性检测的基本知识和现有方法,并系统...
《现代C:概念剖析和编程实践》内容简介:这本书按级别组织,编号从0到3。初始级别0,名为“邂逅”,它将总结使用C进行编程的基础知
《重读哈耶克》内容简介:弗里德里希·奥古斯都·冯·哈耶克是一位曾影响了20世纪全人类经济社会发展进程、现代经济学理论和各国经
《译前译后》内容简介:《译前译后》主要涉及到笔者多年来翻译并出版过的作品。译前,系译者对原著的认识。译后,这里包括译著的成
《动物直播间:地下城里的迷宫》内容简介:本书选择那些以善于建筑巢穴著称的动物作为主人公,让它们用直播的形式自己来述说自己的
《贴地飞行:中国自主创新发展磁浮交通纪实》内容简介:本书是一部记述中国磁浮交通自主创新的纪实文学作品。该书作者近20多年来一
《你若坚强,岁月无恙》内容简介:《你若坚强岁月无恙》由SS大小姐著,讲述的是:刚毕业的女生杨时敏,毅然选择去厦门这个充满传奇
《MySQL高可用实践》内容简介:MySQL数据库是现代软件系统基础应用的核心组成部分,如何保持MySQL的高可用性在系统应用中就变得极为
《唐代文学研究年鉴(2019)》内容简介:《唐代文学研究年鉴(2019)》将2018年9月至2019年5月唐代文学研究界的基本研究情况及动态
全国专业技术人员计算机应用能力考试考前冲刺POWERPOINT2003中文演示文稿 本书特色 紧扣考纲,瞄准考点:充分解读考纲,考点归纳精讲,明确重点难点试题详...
拓扑学(原书第2版)中文 本书特色 《拓扑学》(原书第2版)是一本优秀的拓扑学教材,系统讲解了拓扑学理论知识,共分两部分,**部分一般拓扑学,包括集合论、拓扑空...
《Web开发技术:HTML、CSS、JavaScript》内容简介:本书主要讲解了Web前端开发的相关知识,主要包括HTML、CSS和JavaScript等内容...