国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默 内容简介
《数据挖掘原理(第3版)》深入探讨重要的数据挖掘技术。所谓数据挖掘,即从数据中自动提取隐含和潜在有用的信息;该技术正越来越多地用于商业、科学和其他应用领域。本书浓墨重彩地描述分类、关联规则挖掘和聚类。普通读者可通过本书自学数据挖掘“黑匣子”内部的基本原理,并了解如何合理地选择商业数据挖掘包。学者和资深科研人员可通过本书了解很前沿技术并进一步推动该领域的发展。本书在第2版的基础上进行扩展,透彻讲解适用于平稳数据的H-Tree算法,以及适用于时间相关数据(概念漂移)的CDH-Tree算法。
国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默 本书特色
《数据挖掘原理(第3版)》深入探讨重要的数据挖掘技术。所谓数据挖掘,即从数据中自动提取隐含和潜在有用的信息;该技术正越来越多地用于商业、科学和其他应用领域。本书浓墨重彩地描述分类、关联规则挖掘和聚类。 普通读者可通过本书自学数据挖掘“黑匣子”内部的基本原理,并了解如何合理地选择商业数据挖掘包。学者和资深科研人员可通过本书了解*前沿技术并进一步推动该领域的发展。 《数据挖掘原理(第3版)》在第2版的基础上进行扩展,透彻讲解适用于平稳数据的H-Tree算法,以及适用于时间相关数据(概念漂移)的CDH-Tree算法。
国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默 目录
目录
第 1 章数据挖掘简介 1
1.1数据爆炸 1
1.2知识发现 2
1.3数据挖掘的应用 3
1.4标签和无标签数据 4
1.5监督学习:分类 4
1.6监督学习:数值预测 5
1.7无监督学习:关联规则 6
1.8无监督学习:聚类 7
第 2 章用于挖掘的数据 9
2.1标准制定 9
2.2变量的类型 10
2.3数据准备 11
2.4缺失值 13
2.4.1丢弃实例 13
2.4.2用*频繁值/平均值替换 13
2.5减少属性个数 14
2.6数据集的UCI存储库 15
2.7本章小结 15
2.8自我评估练习 15
第 3 章分类简介:朴素贝叶斯和*近邻算法 17
3.1什么是分类 17
3.2朴素贝叶斯分类器 18
3.3*近邻分类 24
3.3.1距离测量 26
3.3.2标准化 28
3.3.3处理分类属性 29
3.4急切式和懒惰式学习 30
3.5本章小结 30
3.6自我评估练习 30
第 4 章使用决策树进行分类 31
4.1决策规则和决策树 31
4.1.1决策树:高尔夫示例 31
4.1.2术语 33
4.1.3degrees数据集 33
4.2TDIDT算法 36
4.3推理类型 38
4.4本章小结 38
4.5自我评估练习 39
第 5 章决策树归纳:使用熵进行属性选择 41
5.1属性选择:一个实验 41
5.2替代决策树 42
5.2.1足球/无板篮球示例 42
5.2.2匿名数据集 44
5.3选择要分裂的属性:使用熵 46
5.3.1lens24数据集 46
5.3.2熵 47
5.3.3使用熵进行属性选择 48
5.3.4信息增益*大化 50
5.4本章小结 51
5.5自我评估练习 51
第 6 章决策树归纳:使用频率表进行属性选择 53
6.1实践中的熵计算 53
6.1.1等效性证明 55
6.1.2关于零值的说明 56
6.2其他属性选择标准:多样性基尼指数 56
6.3χ2属性选择准则 57
6.4归纳偏好 60
6.5使用增益比进行属性选择 61
6.5.1分裂信息的属性 62
6.5.2总结 63
6.6不同属性选择标准生成的规则数 63
6.7缺失分支 64
6.8本章小结 65
6.9自我评估练习 65
第 7 章估计分类器的预测精度 67
7.1简介 67
7.2方法1:将数据划分为训练集和测试集 68
7.2.1标准误差 68
7.2.2重复训练和测试 69
7.3方法2:k-折交叉验证 70
7.4方法3:N -折交叉验证 70
7.5实验结果I 71
7.6实验结果II:包含缺失值的数据集 73
7.6.1策略1:丢弃实例 73
7.6.2策略2:用*频繁值/平均值替换 74
7.6.3类别缺失 75
7.7混淆矩阵 75
7.8本章小结 77
7.9自我评估练习 77
第 8 章连续属性 79
8.1简介 79
8.2局部与全局离散化 81
8.3向TDIDT添加局部离散化 81
8.3.1计算一组伪属性的信息增益 82
8.3.2计算效率 86
8.4使用ChiMerge算法进行全局离散化 88
8.4.1计算期望值和χ2 90
8.4.2查找阈值 94
8.4.3设置minIntervals和maxIntervals 95
8.4.4ChiMerge算法:总结 96
8.4.5对ChiMerge算法的评述 96
8.5比较树归纳法的全局离散化和局部离散化 97
8.6本章小结 98
8.7自我评估练习 98
第 9 章避免决策树的过度拟合 99
9.1处理训练集中的冲突 99
9.2关于过度拟合数据的更多规则 103
9.3预剪枝决策树 104
9.4后剪枝决策树 106
9.5本章小结 111
9.6自我评估练习 111
第 10 章关于熵的更多信息 113
10.1简介 113
10.2使用位的编码信息 116
10.3区分值 117
10.4对“非等可能”的值进行编码 118
10.5训练集的熵 121
10.6信息增益必须为正数或零 122
10.7使用信息增益来简化分类任务的特征 123
10.7.1示例1:genetics数据集 124
10.7.2示例2:bcst96数据集 126
10.8本章小结 128
10.9自我评估练习 128
第 11 章归纳分类的模块化规则 129
11.1规则后剪枝 129
11.2冲突解决 130
11.3决策树的问题 133
11.4Prism算法 135
11.4.1基本Prism算法的变化 141
11.4.2将Prism算法与TDIDT算法进行比较 142
11.5本章小结 143
11.6自我评估练习 143
第 12 章度量分类器的性能 145
12.1真假正例和真假负例 146
12.2性能度量 147
12.3真假正例率与预测精度 150
12.4ROC图 151
12.5ROC曲线 153
12.6寻找*佳分类器 153
12.7本章小结 155
12.8自我评估练习 155
第 13 章处理大量数据 157
13.1简介 157
13.2将数据分发到多个处理器 159
13.3案例研究:PMCRI 161
13.4评估分布式系统PMCRI的有效性 163
13.5逐步修改分类器 167
13.6本章小结 171
13.7自我评估练习 171
第 14 章集成分类 173
14.1简介 173
14.2估计分类器的性能 175
14.3为每个分类器选择不同的训练集 176
14.4为每个分类器选择一组不同的属性 177
14.5组合分类:替代投票系统 177
14.6并行集成分类器 180
14.7本章小结 181
14.8自我评估练习 181
第 15 章比较分类器 183
15.1简介 183
15.2配对t检验 184
15.3为比较评估选择数据集 189
15.4抽样 191
15.5“无显著差异”的结果有多糟糕? 193
15.6本章小结 194
15.7自我评估练习 194
第 16 章关联规则挖掘I 195
16.1简介 195
16.2规则兴趣度的衡量标准 196
16.2.1Piatetsky-Shapiro标准和RI度量 198
16.2.2规则兴趣度度量应用于chess数据集 200
16.2.3使用规则兴趣度度量来解决冲突 201
16.3关联规则挖掘任务 202
16.4找到*佳N条规则 202
16.4.1J-Measure:度量规则的信息内容 203
16.4.2搜索策略 204
16.5本章小结 207
16.6自我评估练习 207
第 17 章关联规则挖掘II 209
17.1简介 209
17.2事务和项目集 209
17.3对项目集的支持 211
17.4关联规则 211
17.5生成关联规则 213
17.6Apriori 214
17.7生成支持项目集:一个示例 217
17.8为支持项目集生成规则 219
17.9规则兴趣度度量:提升度和杠杆率 220
17.10本章小结 222
17.11自我评估练习 222
第 18 章关联规则挖掘III:频繁模式树 225
18.1简介:FP-growth 225
18.2构造FP-tree 227
18.2.1预处理事务数据库 227
18.2.2初始化 229
18.2.3处理事务1:f, c, a, m, p 230
18.2.4处理事务2:f, c, a, b, m 231
18.2.5处理事务3:f, b 235
18.2.6处理事务4:c, b, p 236
18.2.7处理事务5:f, c, a, m, p 236
18.3从FP-tree中查找频繁项目集 238
18.3.1以项目p结尾的项目集 240
18.3.2以项目m结尾的项目集 248
18.4本章小结 254
18.5自我评估练习 254
第 19 章聚类 255
19.1简介 255
19.2k-means聚类 257
19.2.1示例 258
19.2.2找到*佳簇集 262
19.3凝聚式层次聚类 263
19.3.1记录簇间距离 265
19.3.2终止聚类过程 268
19.4本章小结 268
19.5自我评估练习 268
第 20 章文本挖掘 269
20.1多重分类 269
20.2表示数据挖掘的文本文档 270
20.3停用词和词干 271
20.4使用信息增益来减少特征 272
20.5表示文本文档:构建向量空间模型 272
20.6规范权重 273
20.7测量两个向量之间的距离 274
20.8度量文本分类器的性能 275
20.9超文本分类 275
20.9.1对网页进行分类 276
20.9.2超文本分类与文本分类 277
20.10本章小结 279
20.11自我评估练习 280
第 21 章分类流数据 281
21.1简介 281
21.2构建H-Tree:更新数组 283
21.2.1currentAtts数组 284
21.2.2splitAtt数组 284
21.2.3将记录排序到适当的叶节点 284
21.2.4hitcount数组 285
21.2.5classtotals数组 285
21.2.6acvCounts阵列 285
21.2.7branch数组 286
21.3构建H-Tree:详细示例 287
21.3.1步骤1:初始化根节点0 287
21.3.2步骤2:开始读取记录 287
21.3.3步骤3:考虑在节点0处分裂 288
21.3.4步骤4:在根节点上拆分并初始化新的叶节点 289
21.3.5步骤5:处理下一组记录 290
21.3.6步骤6:考虑在节点2处分裂 292
21.3.7步骤7:处理下一组记录 292
21.3.8H-Tree算法概述 293
21.4分裂属性:使用信息增益 295
21.5分裂属性:使用Hoeffding边界 297
21.6H-Tree算法:*终版本 300
21.7使用不断进化的H-Tree进行预测 302
21.8实验:H-Tree与TDIDT 304
21.8.1lens24数据集 304
21.8.2vote数据集 306
21.9本章小结 307
21.10自我评估练习 307
第 22 章分类流数据II:时间相关数据 309
22.1平稳数据与时间相关数据 309
22.2H-Tree算法总结 311
22.2.1currentAtts数组 312
22.2.2splitAtt数组 312
22.2.3hitcount数组 312
22.2.4classtotals数组 312
22.2.5acvCounts数组 313
22.2.6branch数组 313
22.2.7H-Tree算法的伪代码 313
22.3从H-Tree到CDH-Tree:概述 315
22.4从H-Tree转换到CDH-Tree:递增计数 315
22.5滑动窗口法 316
22.6在节点处重新分裂 320
22.7识别可疑节点 320
22.8创建备用节点 322
22.9成长/遗忘备用节点及其后代 325
22.10用备用节点替换一个内部节点 327
22.11实验:跟踪概念漂移 333
22.11.1lens24数据:替代模式 335
22.11.2引入概念漂移 335
22.11.3使用交替lens24数据的实验 336
22.11.4关于实验的评论 343
22.12本章小结 343
22.13自我评估练习 343
附录 A基本数学知识 345
附录 B数据集 357
附录 C更多信息来源 371
附录 D词汇表和符号 373
附录 E自我评估练习题答案 391
参考文献 419
国外计算机科学经典教材数据挖掘原理(第3版)/(英)麦克斯.布拉默 作者简介
Max Bramer是英国朴次茅斯大学信息技术系荣誉教授、IFIP副主席、英国计算机学会AI专家组主席。
自从 “数据挖掘”“数据库中的知识发现”“大数据”和“预测分析”等技术兴起以来,Max积极参与了多个数据挖掘项目,尤其是与数据自动分类相关的项目。Max发表了大量技术文章,曾撰写Research and Development in Intelligent Systems等著作。Max具有多年的本科和研究生教学经验。