R语言与数据分析实战

R语言与数据分析实战

作者:徐珉久

出版社:人民邮电出版社

出版年:2017-01-01

评分:5分

ISBN:9787115442468

所属分类:网络科技

书刊介绍

R语言与数据分析实战 本书特色

本书以R语言的“编程属性”为中心,内容涵盖R语言基础理论到实际数据分析,通过分析模型和算法等更实用的示例,讲解了数据可视化、统计分析、数据挖掘、机器学习等实际业务中常用的实操技巧,以及代码生成方法。书中还收录了作者的实战经验和学习体会,可以解决数据分析过程中出现的各种问题。对R语言有一定了解但在实际运用中感到困惑的读者,可以在书中找到多种解题方法,并能够迅速应用于一线业务。

R语言与数据分析实战 内容简介

囊括高效数据处理技巧,涵盖统计方法、分类算法、机器学习核心原理,直接操作内容并快速检验结果。熟练掌握R编程,实现快速分析。R基础到数据处理实操,一册在手,迅速掌握。 利用作者的丰富经验,解决数据分析过程中的多种问题。

R语言与数据分析实战 目录

推荐语iii
前言iv
本书结构vi
第1章搭建R编程环境1
1.1为什么是R2
1.2安装R2
1.2.1在Windows操作系统中安装R4
1.2.2在Linux系统下安装R6
1.2.3在Mac OS X中安装R12
1.3启动R15
1.4查看帮助16
1.5R集成开发环境19
1.6批处理21
1.7使用包22
参考资料24
第2章数据类型25
2.1变量26
2.1.1变量命名规则26
2.1.2变量赋值26
2.2调用函数时指定参数27
2.3标量28
2.3.1数值28
2.3.2NA29
2.3.3NULL29
2.3.4字符串30
2.3.5逻辑值31
2.3.6因子32
2.4向量34
2.4.1创建向量35
2.4.2访问向量中的数据36
2.4.3向量运算39
2.4.4连续数字组成的向量41
2.4.5保存重复值的向量42
2.5列表43
2.5.1创建列表43
2.5.2访问列表中的数据44
2.6矩阵45
2.6.1创建矩阵45
2.6.2访问矩阵中的数据48
2.6.3矩阵运算49
2.7数组52
2.7.1创建数组53
2.7.2访问数组数据54
2.8数据框54
2.8.1创建数据框55
2.8.2访问数据框57
2.8.3实用工具函数59
2.9类型判别61
2.10类型转换62
参考资料64
第3章R语言编程65
3.1R的特征66
3.2流程控制(条件语句与循环语句)66
3.2.1if语句66
3.2.2循环语句67
3.3运算69
3.3.1数值运算70
3.3.2向量运算70
3.3.3NA处理72
3.4定义函数74
3.4.1基本定义74
3.4.2可变长参数75
3.4.3嵌套函数76
3.5作用域77
3.6值传递80
3.7对象的不变性81
3.8模块模式83
3.8.1队列84
3.8.2编写队列模块85
参考资料86
第4章数据操作Ⅰ:基于向量的处理与外部数据处理87
4.1鸢尾花数据集88
4.2读写文件90
4.2.1读写CSV文件90
4.2.2读写对象文件93
4.3合并数据框的行与列94
4.4apply系列函数96
4.4.1apply()97
4.4.2lapply()函数99
4.4.3sapply()102
4.4.4tapply()104
4.4.5mapply()106
4.5数据分组并调用函数107
4.5.1summaryBy()108
4.5.2orderBy()110
4.5.3sampleBy()112
4.6数据拆分与合并114
4.6.1split()115
4.6.2subset()116
4.6.3数据合并117
4.7数据排序119
4.7.1sort()119
4.7.2order()120
4.8访问数据框中的列121
4.8.1with()121
4.8.2within()122
4.8.3attach()与detach()124
4.9查找符合条件的数据索引126
4.10分组运算127
4.11更易处理的数据表现形式128
4.12与MySQL联动131
4.12.1安装MySQL及RMySQL131
4.12.2使用RMySQL访问MySQL数据库140
参考资料141
第5章数据操作Ⅱ:数据处理及加工143
5.1数据处理及加工相关包144
5.2使用SQL处理数据144
5.3数据分析:拆分、应用、合并146
5.3.1adply()函数147
5.3.2ddply()函数149
5.3.3轻松进行按组运算150
5.3.4mdply()153
5.4数据结构变形与汇总154
5.4.1melt()155
5.4.2cast()157
5.4.3数据汇总158
5.5数据表:更快、更方便的数据框160
5.5.1创建数据表160
5.5.2数据访问与分组运算162
5.5.3使用key快速访问数据164
5.5.4使用key合并数据表166
5.5.5利用引用修改数据167
5.5.6将列表转换为数据框168
5.6更好的循环语句170
5.7并行处理172
5.7.1设置进程数173
5.7.2plyr并行化174
5.7.3foreach并行化176
5.8单元测试与调试177
5.8.1testthat177
5.8.2使用test_that()进行测试分组179
5.8.3测试文件的结构180
5.8.4调试181
5.9测定代码执行时间187
5.9.1测定命令语句执行时间187
5.9.2代码性能测试189
参考资料191
第6章绘图193
6.1散点图194
6.2图形选项195
6.2.1坐标轴名称196
6.2.2图形标题197
6.2.3点的类型197
6.2.4点的大小198
6.2.5颜色199
6.2.6坐标轴的取值范围200
6.2.7图形类型201
6.2.8线型204
6.2.9图形排列204
6.2.10抖动205
6.3基本图形207
6.3.1点207
6.3.2折线209
6.3.3直线211
6.3.4曲线212
6.3.5多边形213
6.4字符串216
6.5识别图形中的数据218
6.6图例219
6.7绘制矩阵中的数据(matplot、matlines、matpoints)220
6.8应用图形221
6.8.1箱线图222
6.8.2直方图225
6.8.3密度图227
6.8.4条形图229
6.8.5饼图230
6.8.6马赛克图232
6.8.7散点图矩阵234
6.8.8透视图、等高线图235
参考资料238
第7章统计分析239
7.1生成随机数与分布函数240
7.2基本统计量243
7.2.1样本均值、样本方差、样本标准差243
7.2.2五数概括244
7.2.3众数246
7.3样本抽取246
7.3.1简单随机抽样247
7.3.2考虑权值的样本抽取248
7.3.3分层随机抽样249
7.3.4系统抽样251
7.4列联表252
7.4.1创建列联表253
7.4.2求和与百分比254
7.4.3独立性检验256
7.4.4费舍尔精确检验261
7.4.5McNemar检验262
7.5拟合优度检验265
7.5.1卡方检验265
7.5.2夏皮罗-威尔克检验265
7.5.3柯尔莫诺夫-斯米尔诺夫检验266
7.5.4Q-Q图268
7.6相关分析271
7.6.1皮尔逊相关系数272
7.6.2斯皮尔曼相关系数275
7.6.3肯德尔等级相关系数277
7.6.4相关系数检验277
7.7估计与检验278
7.7.1单样本均值279
7.7.2两独立样本均值282
7.7.3两配对样本均值285
7.7.4两样本方差287
7.7.5单样本比率288
7.7.6两样本比率290
参考资料291
第8章线性回归293
8.1线性回归的基本假设294
8.2简单线性回归295
8.2.1创建模型295
8.2.2提取线性回归结果296
8.2.3预测与置信区间298
8.2.4模型评估299
8.2.5方差分析及模型间比较302
8.2.6模型诊断图形304
8.2.7回归直线的可视化306
8.3多元回归307
8.3.1创建及评估模型307
8.3.2分类变量308
8.3.3多元回归模型的可视化310
8.3.4使用函数I()312
8.3.5变量的变换314
8.3.6交互作用314
8.4异常值320
8.5变量选择321
8.5.1选择变量的方法322
8.5.2比较所有情形325
参考资料328
第9章分类算法Ⅰ:数据探索、预处理、模型评估方法331
9.1数据探索332
9.1.1技术统计332
9.1.2数据可视化337
9.2预处理340
9.2.1数据变换340
9.2.2缺失值处理345
9.2.3变量选择348
9.3模型评估方法358
9.3.1评估指标358
9.3.2ROC曲线361
9.3.3交叉检验365
参考资料375
第10章分类算法Ⅱ:机器学习算法377
10.1逻辑回归模型378
10.2多项逻辑回归分析381
10.3决策树384
10.3.1决策树模型385
10.3.2分类与回归树386
10.3.3条件推断决策树389
10.3.4随机森林391
10.4神经网络396
10.4.1神经网络模型396
10.4.2神经网络模型学习398
10.5支持向量机402
10.5.1支持向量机模型403
10.5.2支持向量机学习404
10.6类别不平衡408
10.6.1向上取样、向下取样409
10.6.2SMOTE411
10.7文档分类413
10.7.1语料库与文档413
10.7.2文档变换414
10.7.3文档的矩阵表示415
10.7.4高频词418
10.7.5词语之间的相关关系419
10.7.6文档分类420
10.7.7从文件创建语料库422
10.7.8元数据424
10.8caret包427
参考资料431
第11章利用泰坦尼克数据练习机器学习433
11.1泰坦尼克数据格式434
11.2读入数据434
11.2.1转换数据类型435
11.2.2分离测试数据437
11.2.3准备交叉检验438
11.3数据探索440
11.4评估指标444
11.5决策树模型444
11.5.1rpart的交叉检验445
11.5.2准确度评估446
11.5.3条件推断决策树447
11.6发现其他特征448
11.6.1使用ticket识别家庭448
11.6.2预测生还概率449
11.6.3添加家庭ID450
11.6.4合并家庭成员的生还概率452
11.6.5使用家庭信息建模ctree()454
11.6.6性能评估455
11.7交叉检验并行化457
11.7.1反复执行3次10层交叉检验457
11.7.2使用foreach()与%dopar%进行并行化458
11.8开发更好的算法459
参考资料460

R语言与数据分析实战 作者简介

徐珉久2007年至今,在Google Korea担任软件工程师。曾开发全球检索相关产品,近来负责自然语言处理相关业务,研究如何为用户查询提供更好的检索品质。延世大学计算机工程学士、韩国科学技术院(KAIST)计算机工程硕士、广播通信大学信息统计学学士,积极参与Coursera等组织的MOOC。 个人网站:http://mkseo.pe.kr/

相关推荐

微信二维码