现代数据科学(R语言·第2版)

现代数据科学(R语言·第2版)

作者:[美] Benjamin S. Baumer

出版社:清华大学出版社

出版年:2022-3

ISBN:9787302598794

所属分类:行业好书

书刊介绍

内容简介

Benjamin S. Baumer,美国史密斯学院统计与数据科学专业副教授。于2004年成为纽约大都会队第一位全职统计分析师,此后一直担任应用数据科学家。曾荣获美国棒球研究学会颁发的2019年Waller教育奖和2016年突出贡献者奖,参与撰写了 The Sabermetric Revolution 一书。

Daniel T. Kaplan,美国玛卡莱斯特学院数学和计算机科学系名誉教授,多本统计建模和统计计算教科书的作者。获得2006年玛卡莱斯特学院卓越教学奖和2017年终身成就奖。

Nicholas J. Horton,美国阿默斯特学院统计和数据科学系教授,ASA 和 AAAS 高级会员,美国国家科学院应用与理论统计委员会的联合主席,多项美国国家教学奖的获得者,一系列统计计算书籍的作者,并积极参与编写数据科学课程,帮助学生“用数据思考"。

作品目录

第Ⅰ部分 数据科学简介
第1章 序言:为什么有数据科学? 2
1.1 数据科学是什么 3
1.2 案例学习:棒球资料统计分析的演变 5
1.3 数据集 6
1.4 扩展资源 7
第2章 数据可视化 8
2.1 2012年联邦大选周期 8
2.2 组成数据图形 15
2.3 数据图形的重要性:挑战者号 21
2.4 创建有效的演示 25
2.5 更广阔的数据可视化世界 25
2.6 扩展资源 27
2.7 练习题 28
2.8 附加练习 29
第3章 图形语法 30
3.1 数据图形语法 30
3.2 R中的规范数据图形 38
3.3 扩展示例:历史婴儿名字 47
3.4 扩展资源 56
3.5 练习题 56
3.6 附加练习 58
第4章 在一张表中整理数据 59
4.1 数据整理语法 59
4.2 扩展示例:Ben在大都会队(Mets)的时间 67
4.3 扩展资源 75
4.4 练习题 76
4.5 附加练习 79
第5章 多张表的数据整理 80
5.1 inner_join() 80
5.2 left_join() 82
5.3 扩展示例:Manny Ramirez 83
5.4 扩展资源 90
5.5 练习题 90
5.6 附加练习 92
第6章 数据规整 93
6.1 规整数据 93
6.2 重塑数据 101
6.3 命名约定 110
6.4 数据获取 111
6.5 扩展资源 124
6.6 练习题 124
6.7 附加练习 127
第7章 迭代 128
7.1 向量化操作 128
7.2 利用dplyr实现across() 131
7.3 map()函数族 132
7.4 在一维向量上迭代 133
7.5 在子组上迭代 135
7.6 仿真 140
7.7 扩展示例:与BMI相关的因子 142
7.8 扩展资源 145
7.9 练习题 145
7.10 附加练习 145
第8章 数据科学伦理学 146
8.1 引言 146
8.2 真实的谎言 146
8.3 数据科学在社会中的作用 149
8.4 职业道德的一些设置 150
8.5 道德行为的一些指导性原则 153
8.6 算法偏差 157
8.7 数据与泄露 157
8.8 再现性 159
8.9 集体的道德准则 160
8.10 职业道德行为准则 161
8.11 扩展资源 161
8.12 练习题 162
8.13 附加练习 163
第Ⅱ部分 统计与建模
第9章 统计基础 166
9.1 样本和总体 166
9.2 样本统计 169
9.3 自举 173
9.4 异常值 176
9.5 统计模型:方差解释 178
9.6 混淆和解释其他因素 181
9.7 p值的风险 184
9.8 扩展资源 186
9.9 练习题 187
9.10 附加练习 187
第10章 预测建模 188
10.1 预测建模 189
10.2 简单的分类模型 190
10.3 评价方法 197
10.4 扩展示例:谁患有糖尿病? 204
10.5 扩展资源 207
10.6 练习题 207
10.7 附加练习 208
第11章 监督学习 209
11.1 非回归分类器 209
11.2 参数调整 224
11.3 示例:收入模型redux的评价 226
11.4 扩展示例:这次谁得了糖尿病? 230
11.5 正则化 235
11.6 扩展资源 237
11.7 练习题 238
11.8 附加练习 239
第12章 无监督学习 240
12.1 聚类 240
12.2 降维 246
12.3 扩展资源 254
12.4 练习题 254
12.5 附加练习 255
第13章 仿真 256
13.1 逆向推理 256
13.2 扩展示例:癌症分组 257
13.3 随机化函数 259
13.4 仿真可变性 261
13.5 随机网络 267
13.6 仿真关键原则 267
13.7 扩展资源 270
13.8 练习题 270
13.9 附加练习 271
第Ⅲ部分 数据科学专题
第14章 动态定制数据图形 274
14.1 使用D3.js和htmlwidgets丰富Web内容 274
14.2 动画 278
14.3 flexdashboard 279
14.4 基于Shiny的交互式Web应用程序 281
14.5 ggplot2图形的定制 285
14.6 扩展示例:吃热狗 289
14.7 扩展资源 294
14.8 练习题 294
14.9 附加练习 295
第15章 使用SQL查询数据库 296
15.1 从dplyr 到SQL 296
15.2 平面文件数据库 300
15.3 SQL 302
15.4 SQL数据操作语言 303
15.5 扩展示例:FiveThirtyEight航班 323
15.6 SQL与R 331
15.7 扩展资源 331
15.8 练习题 331
15.9 附加练习 333
第16章 数据库管理 334
16.1 构建高效的SQL数据库 334
16.2 更改SQL数据 340
16.3 扩展示例:创建数据库 342
16.4 可扩展性 346
16.5 扩展资源 346
16.6 练习题 346
16.7 附加练习 347
第17章 使用地理空间数据 348
17.1 动机:地理空间数据有什么了不起的? 348
17.2 空间数据结构 351
17.3 制作地图 353
17.4 扩展示例:国会选区 362
17.5 有效的地图:如何避免撒谎 370
17.6 投影多边形 371
17.7 有效利用其他技术 373
17.8 扩展资源 374
17.9 练习题 374
17.10 附加练习 374
第18章 地理空间计算 375
18.1 地理空间操作 375
18.2 地理空间聚合 384
18.3 地理空间联接 386
18.4 拓展示例:MacLeish中的路径海拔 387
18.5 扩展资源 391
18.6 练习题 391
18.7 附加练习 392
第19章 文本数据 393
19.1 使用Macbeth的正则表达式 393
19.2 扩展示例:分析arXiv.org的文本数据 399
19.3 获取文本 412
19.4 扩展资源 415
19.5 练习题 416
19.6 附加练习 418
第20章 网络科学 419
20.1 网络科学引言 419
20.2 扩展示例:Kristen Stewart的六度空间理论 424
20.3 PageRank 433
20.4 扩展示例:1996年男子大学篮球赛 435
20.5 扩展资源 442
20.6 练习题 442
20.7 附加练习 443
第21章 结束语:走向“大数据” 444
21.1 大数据的一些概念 444
21.2 更大数据的工具 446
21.3 R的替代方案 455
21.4 结束语 456
21.5 扩展资源 456
第Ⅳ部分 附录
附录A 本书使用的包 458
附录B R和RStudio简介 465
附录C 算法思维 483
附录D 可再现性分析和工作流程 495
附录E 回归建模 504
附录F 安装数据库服务器 524
· · · · · ·

作者简介

Benjamin S. Baumer,美国史密斯学院统计与数据科学专业副教授。于2004年成为纽约大都会队第一位全职统计分析师,此后一直担任应用数据科学家。曾荣获美国棒球研究学会颁发的2019年Waller教育奖和2016年突出贡献者奖,参与撰写了 The Sabermetric Revolution 一书。

Daniel T. Kaplan,美国玛卡莱斯特学院数学和计算机科学系名誉教授,多本统计建模和统计计算教科书的作者。获得2006年玛卡莱斯特学院卓越教学奖和2017年终身成就奖。

Nicholas J. Horton,美国阿默斯特学院统计和数据科学系教授,ASA 和 AAAS 高级会员,美国国家科学院应用与理论统计委员会的联合主席,多项美国国家教学奖的获得者,一系列统计计算书籍的作者,并积极参与编写数据科学课程,帮助学生“用数据思考"。

相关推荐

微信二维码