数据时代已经到来,但数据分析、数据挖掘人才却十分短缺。由于“大数据”对每个领域的决定性影响, 相对于经验和直觉,在商业、经济及其他领域中基于数据和分析去发现问题并作出科学、客观的决策越来越重要。开源软件R是世界上最流行的数据分析、统计计算及制图语言,几乎能够完成任何数据处理任务,可安装并运行于所有主流平台,为我们提供了成千上万的专业模块和实用工具,是从大数据中获取有用信息的绝佳工具。本书从解决实际问题入手,尽量跳脱统计学的理论阐述来讨论R语言及其应用,讲解清晰透澈,极具实用性。作者不仅高度概括了R语言的强大功能、展示了各种实用的统计示例,而且对于难以用传统方法分析的凌乱、不完整和非正态的数据也给出了完备的处理方法。通读本书,你将全面掌握使用R语言进行数据分析、数据挖掘的技巧,并领略大量探索和展示数据的图形功能,从而更加高效地进行分析与沟通。想要成为倍受高科技企业追捧的、炙手可热的数据分析师吗?想要科学分析数据并正确决策吗?不妨从本书开始,挑战大数据,用R开始炫酷的数据统计与分析吧!本书内容:R安装与操作
数据导入/导出及格式化双变量关系的描述性分析回归分析
模型适用性的评价方法以及结果的可视化
用图形实现变量关系的可视化
在给定置信度的前提下确定样本量
高级统计分析方法和高级绘图
目 录
第一部分 入 门
第1章 R语言介绍3
1.1 为何要使用R?4
1.2 R的获取和安装6
1.3 R的使用7
1.3.1 新手上路7
1.3.2 获取帮助10
1.3.3 工作空间10
1.3.4 输入和输出12
1.4 包14
1.4.1 什么是包14
1.4.2 包的安装14
1.4.3 包的载入14
1.4.4 包的使用方法15
1.5 批处理15
1.6 将输出用为输入——结果的重用16
1.7 处理大数据集16
1.8 示例实践17
1.9 小结18
第2章 创建数据集19
2.1 数据集的概念19
2.2 数据结构20
2.2.1 向量21
2.2.2 矩阵22
2.2.3 数组23
2.2.4 数据框24
2.2.5 因子27
2.2.6 列表29
2.3 数据的输入30
2.3.1 使用键盘输入数据31
2.3.2 从带分隔符的文本文件导入数据32
2.3.3 导入Excel数据33
2.3.4 导入XML数据34
2.3.5 从网页抓取数据34
2.3.6 导入SPSS数据34
2.3.7 导入SAS数据34
2.3.8 导入Stata数据35
2.3.9 导入netCDF数据35
2.3.10 导入HDF5数据35
2.3.11 访问数据库管理系统36
2.3.12 通过Stat/Transfer导入数据37
2.4 数据集的标注37
2.4.1 变量标签38
2.4.2 值标签38
2.5 处理数据对象的实用函数38
2.6 小结39
第3章 图形初阶40
3.1 使用图形40
3.2 一个简单的例子42
3.3 图形参数43
3.3.1 符号和线条45
3.3.2 颜色46
3.3.3 文本属性47
3.3.4 图形尺寸与边界尺寸49
3.4 添加文本、自定义坐标轴和图例50
3.4.1 标题51
3.4.2 坐标轴52
3.4.3 参考线54
3.4.4 图例54
3.4.5 文本标注56
3.5 图形的组合58
3.6 小结64
第4章 基本数据管理65
4.1 一个示例65
4.2 创建新变量67
4.3 变量的重编码68
4.4 变量的重命名69
4.5 缺失值70
4.5.1 重编码某些值为缺失值71
4.5.2 在分析中排除缺失值72
4.6 日期值73
4.6.1 将日期转换为字符型变量74
4.6.2 更进一步74
4.7 类型转换74
4.8 数据排序75
4.9 数据集的合并76
4.9.1 添加列76
4.9.2 添加行76
4.10 数据集取子集77
4.10.1 选入(保留)变量77
4.10.2 剔除(丢弃)变量77
4.10.3 选入观测78
4.10.4 subset()函数79
4.10.5 随机抽样79
4.11 使用SQL语句操作数据框80
4.12 小结81
第5章 高级数据管理82
5.1 一个数据处理难题82
5.2 数值和字符处理函数83
5.2.1 数学函数83
5.2.2 统计函数84
5.2.3 概率函数86
5.2.4 字符处理函数89
5.2.5 其他实用函数90
5.2.6 将函数应用于矩阵和数据框91
5.3 数据处理难题的一套解决方案93
5.4 控制流96
5.4.1 重复和循环97
5.4.2 条件执行97
5.5 用户自编函数99
5.6 整合与重构101
5.6.1 转置101
5.6.2 整合数据101
5.6.3 reshape包102
5.7 小结105
第二部分 基本方法
第6章 基本图形108
6.1 条形图108
6.1.1 简单的条形图109
6.1.2 堆砌条形图和分组条形图110
6.1.3 均值条形图111
6.1.4 条形图的微调112
6.1.5 棘状图113
6.2 饼图114
6.3 直方图116
6.4 核密度图118
6.5 箱线图120
6.5.1 使用并列箱线图进行跨组比较121
6.5.2 小提琴图124
6.6 点图125
6.7 小结128
第7章 基本统计分析129
7.1 描述性统计分析130
7.1.1 方法云集130
7.1.2 分组计算描述性统计量133
7.1.3 结果的可视化136
7.2 频数表和列联表136
7.2.1 生成频数表137
7.2.2 独立性检验142
7.2.3 相关性的度量144
7.2.4 结果的可视化144
7.2.5 将表转换为扁平格式144
7.3 相关146
7.3.1 相关的类型146
7.3.2 相关性的显著性检验148
7.3.3 相关关系的可视化150
7.4 t检验150
7.4.1 独立样本的t检验150
7.4.2 非独立样本的t检验151
7.4.3 多于两组的情况152
7.5 组间差异的非参数检验152
7.5.1 两组的比较152
7.5.2 多于两组的比较153
7.6 组间差异的可视化155
7.7 小结155
第三部分 中级方法
第8章 回归158
8.1 回归的多面性159
8.1.1 OLS回归的适用情境159
8.1.2 基础回顾160
8.2 OLS回归160
8.2.1 用lm()拟合回归模型161
8.2.2 简单线性回归162
8.2.3 多项式回归164
8.2.4 多元线性回归167
8.2.5 有交互项的多元线性回归169
8.3 回归诊断171
8.3.1 标准方法171
8.3.2 改进的方法175
8.3.3 线性模型假设的综合验证180
8.3.4 多重共线性181
8.4 异常观测值181
8.4.1 离群点182
8.4.2 高杠杆值点182
8.4.3 强影响点183
8.5 改进措施186
8.5.1 删除观测点186
8.5.2 变量变换186
8.5.3 增删变量187
8.5.4 尝试其他方法188
8.6 选择“最佳”的回归模型188
8.6.1 模型比较188
8.6.2 变量选择189
8.7 深层次分析193
8.7.1 交叉验证193
8.7.2 相对重要性194
8.8 小结197
第9章 方差分析198
9.1 术语速成198
9.2 ANOVA模型拟合201
9.2.1 aov()函数201
9.2.2 表达式中各项的顺序201
9.3 单因素方差分析202
9.3.1 多重比较204
9.3.2 评估检验的假设条件206
9.4 单因素协方差分析208
9.4.1 评估检验的假设条件209
9.4.2 结果可视化210
9.5 双因素方差分析211
9.6 重复测量方差分析214
9.7 多元方差分析216
9.7.1 评估假设检验217
9.7.2 稳健多元方差分析219
9.8 用回归来做ANOVA219
9.9 小结221
第10章 功效分析222
10.1 假设检验速览222
10.2 用pwr包做功效分析225
10.2.1 t检验225
10.2.2 方差分析227
10.2.3 相关性227
10.2.4 线性模型228
10.2.5 比例检验229
10.2.6 卡方检验229
10.2.7 在新情况中选择合适的效应值230
10.3 绘制功效分析图形232
10.4 其他软件包234
10.5 小结235
第11章 中级绘图236
11.1 散点图237
11.1.1 散点图矩阵239
11.1.2 高密度散点图244
11.1.3 三维散点图247
11.1.4 气泡图250
11.2 折线图252
11.3 相关图255
11.4 马赛克图259
11.5 小结261
第12章 重抽样与自助法263
12.1 置换检验263
12.2 用coin包做置换检验265
12.2.1 独立两样本和K样本检验266
12.2.2 列联表中的独立性267
12.2.3 数值变量间的独立性268
12.2.4 两样本和K样本相关性检验268
12.2.5 深入探究269
12.3 lmPerm包的置换检验269
12.3.1 简单回归和多项式回归269
12.3.2 多元回归271
12.3.3 单因素方差分析和协方差分析271
12.3.4 双因素方差分析272
12.4 置换检验点评273
12.5 自助法273
12.6 boot包中的自助法274
12.6.1 对单个统计量使用自助法275
12.6.2 多个统计量的自助法277
12.7 小结279
第四部分 高级方法
第13章 广义线性模型282
13.1 广义线性模型和glm()函数282
13.1.1 glm()函数283
13.1.2 连用的函数284
13.1.3 模型拟合和回归诊断285
13.2 Logistic回归285
13.2.1 解释模型参数288
13.2.2 评价预测变量对结果概率的影响289
13.2.3 过度离势290
13.2.4 扩展291
13.3 泊松回归291
13.3.1 解释模型参数293
13.3.2 过度离势294
13.3.3 扩展295
13.4 小结297
第14章 主成分和因子分析298
14.1 R中的主成分和因子分析299
14.2 主成分分析300
14.2.1 判断主成分的个数300
14.2.2 提取主成分302
14.2.3 主成分旋转305
14.2.4 获取主成分得分306
14.3 探索性因子分析307
14.3.1 判断需提取的公共因子数308
14.3.2 提取公共因子309
14.3.3 因子旋转310
14.3.4 因子得分313
14.3.5 其他与EFA相关的包313
14.4 其他潜变量模型314
14.5 小结314
第15章 处理缺失数据的高级方法316
15.1 处理缺失值的步骤317
15.2 识别缺失值318
15.3 探索缺失值模式319
15.3.1 列表显示缺失值319
15.3.2 图形探究缺失数据320
15.3.3 用相关性探索缺失值322
15.4 理解缺失数据的来由和影响324
15.5 理性处理不完整数据325
15.6 完整实例分析(行删除)326
15.7 多重插补327
15.8 处理缺失值的其他方法331
15.8.1 成对删除331
15.8.2 简单(非随机)插补332
15.9 小结332
第16章 高级图形进阶333
16.1 R中的四种图形系统333
16.2 lattice包334
16.2.1 条件变量338
16.2.2 面板函数339
16.2.3 分组变量342
16.2.4 图形参数345
16.2.5 页面摆放346
16.3 ggplot2包347
16.4 交互式图形351
16.4.1 与图形交互:鉴别点351
16.4.2 playwith352
16.4.3 latticist353
16.4.4 iplots包的交互图形354
16.4.5 rggobi355
16.5 小结356
后记:探索R的世界357
附录A 图形用户界面359
附录B 自定义启动环境362
附录C 从R中导出数据364
附录D 制作出版级品质的输出366
附录E R中的矩阵运算374
附录F 本书中用到的扩展包376
附录G 处理大数据381
附录H 更新R383
参考文献385
《Scrum捷径:敏捷策略、工具与技巧》内容简介:本书Scrum作为主流的敏捷方法,因其简单易行而在软件行业迅速普及。但要想取得成效
WithPHPfortheWorldWideWeb,ThirdEdition:VisualQuickStartGuide,readerscanstartfrom...
《田小七来啦6:哎呀,又闯祸了》内容简介:黄莹莹发现田小七、张大嘴等人的行动鬼鬼祟祟的,为了弄清楚真相,她进行了一次跟踪。她
《微商引流爆粉实战手册:全网引流实战300招》内容简介:本书整体上以平台选择为逻辑主线,向读者推荐了诸多引流方法:集赞引流、微
未来15年:全球化2.0会创造数以百万计的中产阶级,但这块市场肥肉只会被送到真正“懂”它的商家口中。每个新兴市场都会有特定的消
《产后恢复专业培训教材》内容简介:女性在生产完毕之后,常常会因为身体过于虚弱而需要一定的恢复和保养,这种恢复和保养被称为产
《守护城市家园:中国城管执法40年》内容简介:城市化是社会发展的必然结果,也是推动社会发展的重要机制。当代中国的快速城市化从
大数据挖掘与分析在金融领域中的应用研究 内容简介 《大数据挖掘与分析在金融领域中的应用研究》阐述了大数据技术在金融领域的应用和发展现状,从大数据视角加以思考和探...
《大戴礼记译注》内容简介:《大戴礼记》为礼学文献汇编,由西汉人戴德辑传。《大戴礼记》原有八十五篇。今传本阙缺若干篇,余三十
实际案例分析是一种从用户角度定义软件系统外在特征的方法。本书对这种前沿的软件开发技术提供了清晰、实用的介绍。通过诸多实例
《分裂者宫崎骏》内容简介:分裂感在宫崎骏的身上几乎无处不在。他是著名的反战主义者,同时也是著名的武器爱好者。童年经历让他曾
《云原生模式》内容简介:拥抱“云”,更多指的是如何设计你的应用程序,而不是你在哪里部署它们。《云原生模式》是一本架构指南,
《一本书读通历史典故》内容简介:华夏民族五千年悠久历史,先人们为我们留下了宝贵的文明遗产。《一本书读通历史典故》采用严谨平
推荐系统开发实战 本书特色 本书是一本关于推荐系统从入门到进阶的读物,采用“理论 实践”的形式展开,不仅对各种推荐算法进行了介绍,还对算...
《中国历代画家佳作品鉴:王个簃》内容简介:王个簃绘画继承了吴昌硕“重、拙、大”的绘画特点,与此同时潜心研究青藤、白阳、八大
每一位阅读“科学时代”――《纽约时报》每周增刊的读者都关注着科学的最新发展。此刊最为广大读者所喜闻乐见的特色专栏是由Nata
本书从Windows内核编程出发,全面系统地介绍了串口、键盘、磁盘、文件系统、网络等相关的Windows内核模块的编程技术,以及基于这
如果你希望成为一名职业室内设计师,本书将成为你最能受益的实用手册。其中包含的大量参考信息将带给你对这份职业的无限热情和激
《直觉泵和其他思考工具》内容简介:哲学泰斗倾囊传授77招思维搏击术,助你清醒思考,看破一切套路!陈嘉映、汪丁丁、万维钢诚意推
《渐进与突破》内容简介:俄罗斯远东联邦区发展油气产业的支点在萨哈林地区,而其“主角”是萨哈林岛。萨哈林岛引人注目之处不仅在