内容简介
Jiawei Han(韩家炜),是伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系的Bliss教授。他因知识发现和数据挖掘研究方面的贡献而获得许多奖励,包括ACM SIGKDD创新奖(2004)、IEEE计算机学会技术成就奖(2005)和IEEE W.Wallace McDowell奖(2009)。他是ACM和IEEE会士。他还担任《ACM Transactions on Knowledge Discovery from Data》的执行主编(2006—2011)和许多杂志的编委,包括《IEEE Transactions on Knowledge and Data Engineering》和《Data Mining Knowledge Discovery》。
拥有加拿大康考迪亚大学计算机科学硕士学位,现在加拿大西蒙弗雷泽大学从事博士后研究工作。
作品目录
出版者的话
专家指导委员会
中文版序
译者序
序
前言
第1章 引言 1
1.1 什么激发了数据挖掘,为什么它是重要的 1
1.2 什么是数据挖掘 3
1.3 对何种数据进行数据挖掘 6
1.3.1 关系数据库 6
1.3.2 数据仓库 8
1.3.3 事务数据库 10
1.3.4 高级数据和信息系统与高级应用 10
1.4 数据挖掘功能—可以挖掘什么类型的模式 14
1.4.1 概念/类描述:特征化和区分 14
1.4.2 挖掘频繁模式、关联和相关 15
1.4.3 分类和预测 15
1.4.4 聚类分析 17
1.4.5 离群点分析 17
.1.4.6 演变分析 18
1.5 所有模式都是有趣的吗 18
1.6 数据挖掘系统的分类 19
1.7 数据挖掘任务原语 20
1.8 数据挖掘系统与数据库系统或数据仓库系统的集成 22
1.9 数据挖掘的主要问题 23
1.10 小结 25
习题 26
文献注释 27
第2章 数据预处理 30
2.1 为什么要预处理数据 30
2.2 描述性数据汇总 32
2.2.1 度量数据的中心趋势 32
2.2.2 度量数据的离散程度 34
2.2.3 基本描述数据汇总的图形显示 36
2.3 数据清理 39
2.3.1 缺失值 39
2.3.2 噪声数据 40
2.3.3 数据清理作为一个过程 41
2.4 数据集成和变换 43
2.4.1 数据集成 43
2.4.2 数据变换 45
2.5 数据归约 47
2.5.1 数据立方体聚集 47
2.5.2 属性子集选择 48
2.5.3 维度归约 49
2.5.4 数值归约 51
2.6 数据离散化和概念分层产生 55
2.6.1 数值数据的离散化和概念分层产生 56
2.6.2 分类数据的概念分层产生 60
2.7 小结 62
习题 62
文献注释 65
第3章 数据仓库与olap技术概述 67
3.1 什么是数据仓库 67
3.1.1 操作数据库系统与数据仓库的区别 68
3.1.2 为什么需要分离的数据仓库 69
3.2 多维数据模型 70
3.2.1 由表和电子数据表到数据立方体 70
3.2.2 星形、雪花形和事实星座形模式:多维数据库模式 72
3.2.3 定义星形、雪花形和事实星座形模式的例子 75
3.2.4 度量的分类和计算 76
3.2.5 概念分层 77
3.2.6 多维数据模型中的olap操作 79
3.2.7 查询多维数据库的星形网查询模型 81
3.3 数据仓库的系统结构 82
3.3.1 数据仓库的设计和构造步骤 82
3.3.2 三层数据仓库的系统结构 83
3.3.3 数据仓库后端工具和实用程序 85
3.3.4 元数据储存库 86
3.3.5 olap服务器类型:rolap、
molap与holap 86
3.4 数据仓库实现 88
3.4.1 数据立方体的有效计算 88
3.4.2 索引olap数据 90
3.4.3 olap查询的有效处理 92
3.5 从数据仓库到数据挖掘 93
3.5.1 数据仓库的使用 93
3.5.2 由联机分析处理到联机分析挖掘 95
3.6 小结 96
习题 97
文献注释 99
第4章 数据立方体计算与数据泛化 101
4.1 数据立方体计算的有效方法 101
4.1.1 不同类型立方体物化的路线图 101
4.1.2 完全立方体计算的多路数组聚集 105
4.1.3 buc:从顶点方体向下计算冰山立方体 108
4.1.4 star-cubing:使用动态星形树结构计算冰山立方体 111
4.1.5 为快速高维olap预计算壳片段 116
4.1.6 计算具有复杂冰山条件的立方体 121
4.2 数据立方体和olap技术的进一步发展 122
4.2.1 数据立方体的发现驱动的探查 122
4.2.2 在多粒度的复杂聚集:多特征立方体 124
4.2.3 数据立方体中被约束的梯度分析 126
4.3 面向属性的归纳—另一种数据泛化和概念描述方法 128
4.3.1 数据特征化的面向属性的归纳 129
4.3.2 面向属性归纳的有效实现 132
4.3.3 导出泛化的表示 133
4.3.4 挖掘类比较:区分不同的类 136
4.3.5 类描述:特征化和比较的表示 139
4.4 小结 140
习题 141
文献注释 144
第5章 挖掘频繁模式、关联和相关 146
5.1 基本概念和路线图 146
5.1.1 购物篮分析:引发性例子 146
5.1.2 频繁项集、闭项集和关联规则 147
5.1.3 频繁模式挖掘:路线图 149
5.2 有效的和可伸缩的频繁项集挖掘方法 150
5.2.1 apriori算法:使用候选产生发现频繁项集 151
5.2.2 由频繁项集产生关联规则 154
5.2.3 提高apriori算法的效率 155
5.2.4 不候选产生挖掘频繁项集 156
5.2.5 使用垂直数据格式挖掘频繁项集 159
5.2.6 挖掘闭频繁项集 160
5.3 挖掘各种类型的关联规则 162
5.3.1 挖掘多层关联规则 162
5.3.2 从关系数据库和数据仓库挖掘多维关联规则 164
5.4 由关联挖掘到相关分析 168
5.4.1 强关联规则不一定有趣:一个例子 168
5.4.2 从关联分析到相关分析 168
5.5 基于约束的关联挖掘 172
5.5.1 关联规则的元规则制导挖掘 172
5.5.2 约束推进:规则约束制导的挖掘 173
5.6 小结 176
习题 177
文献注释 181
第6章 分类和预测 184
6.1 什么是分类,什么是预测.. 184
6.2 关于分类和预测的问题 186
6.2.1 为分类和预测准备数据 186
6.2.2 比较分类和预测方法 187
6.3 用决策树归纳分类 188
6.3.1 决策树归纳 189
6.3.2 属性选择度量 191
6.3.3 树剪枝 196
6.3.4 可伸缩性与决策树归纳 198
6.4 贝叶斯分类 200
6.4.1 贝叶斯定理 201
6.4.2 朴素贝叶斯分类 201
6.4.3 贝叶斯信念网络 204
6.4.4 训练贝叶斯信念网络 205
6.5 基于规则的分类 206
6.5.1 使用if-then规则分类 206
6.5.2 从决策树提取规则 208
6.5.3 使用顺序覆盖算法的规则归纳 209
6.6 用后向传播分类 212
6.6.1 多层前馈神经网络 213
6.6.2 定义网络拓扑 213
6.6.3 后向传播 214
6.6.4 黑盒内部:后向传播和可解释性 218
6.7 支持向量机 219
6.7.1 数据线性可分的情况 219
6.7.2 数据非线性可分的情况 222
6.8 关联分类:基于关联规则分析的分类 224
6.9 惰性学习法(或从近邻学习) 226
6.9.1 k最近邻分类法 226
6.9.2 基于案例的推理 228
6.10 其他分类方法 228
6.10.1 遗传算法 228
6.10.2 粗糙集方法 229
6.10.3 模糊集方法 229
6.11 预测 231
6.11.1 线性回归 231
6.11.2 非线性回归 233
6.11.3 其他基于回归的方法 234
6.12 准确率和误差的度量 234
6.12.1 分类器准确率度量 234
6.12.2 预测器误差度量 236
6.13 评估分类器或预测器的准确率 237
6.13.1 保持方法和随机子抽样 237
6.13.2 交叉确认 238
6.13.3 自助法 238
6.14 系综方法—提高准确率 238
6.14.1 装袋 239
6.14.2 提升 240
6.15 模型选择 241
6.15.1 估计置信区间 242
6.15.2 roc 曲线 243
6.16 小结 244
习题 245
文献注释 247
第7章 聚类分析 251
7.1 什么是聚类分析 251
7.2 聚类分析中的数据类型 253
7.2.1 区间标度变量 253
7.2.2 二元变量 255
7.2.3 分类、序数和比例标度变量 256
7.2.4 混合类型的变量 259
7.2.5 向量对象 260
7.3 主要聚类方法的分类 261
7.4 划分方法 263
7.4.1 典型的划分方法:k均值和k中心点 263
7.4.2 大型数据库的划分方法:从k中心点到clarans 266
7.5 层次方法 267
7.5.1 凝聚和分裂层次聚类 267
7.5.2 birch:利用层次方法的平衡迭代归约和聚类 269
7.5.3 rock:分类属性的层次聚类算法 271
7.5.4 chameleon:利用动态建模的层次聚类算法 272
7.6 基于密度的方法 273
7.6.1 dbscan:一种基于高密度连通区域的基于密度的聚类方法 273
7.6.2 optics:通过点排序识别聚类结构 275
7.6.3 denclue:基于密度分布函数的聚类 276
7.7 基于网格的方法 278
7.7.1 sting:统计信息网格 278
7.7.2 wavecluster:利用小波变换聚类 279
7.8 基于模型的聚类方法 280
7.8.1 期望最大化方法 280
7.8.2 概念聚类 281
7.8.3 神经网络方法 283
7.9 聚类高维数据 284
7.9.1 clique:维增长子空间聚类方法 285
7.9.2 proclus:维归约子空间聚类方法 287
7.9.3 基于频繁模式的聚类方法 287
7.10 基于约束的聚类分析 290
7.10.1 含有障碍物的对象聚类 291
7.10.2 用户约束的聚类分析 293
7.10.3 半监督聚类分析 293
7.11 离群点分析 295
7.11.1 基于统计分布的离群点检测 295
7.11.2 基于距离的离群点检测 296
7.11.3 基于密度的局部离群点检测 298
7.11.4 基于偏差的离群点检测 299
7.12 小结 300
习题 301
文献注释 303
第8章 挖掘流、时间序列和序列数据 306
8.1 挖掘数据流 306
8.1.1 流数据处理方法和流数据系统 307
8.1.2 流olap和流数据立方体 310
8.1.3 数据流中的频繁模式挖掘 314
8.1.4 动态数据流的分类 315
8.1.5 聚类演变数据流 318
8.2 时间序列数据挖掘 320
8.2.1 趋势分析 320
8.2.2 时间序列分析中的相似性搜索 323
8.3 挖掘事务数据库中的序列模式 325
8.3.1 序列模式挖掘:概念和原语 326
8.3.2 挖掘序列模式的可伸缩方法 327
8.3.3 基于约束的序列模式挖掘 333
8.3.4 时间相关序列数据的周期性分析 335
8.4 挖掘生物学数据中的序列模式 336
8.4.1 生物学序列比对 336
8.4.2 生物学序列分析的隐马尔可夫模型 339
8.5 小结 345
习题 346
文献注释 348
第9章 图挖掘、社会网络分析和多关系数据挖掘 351
9.1 图挖掘 351
9.1.1 挖掘频繁子图的方法 351
9.1.2 挖掘变体和约束子结构的模式 357
9.1.3 应用:图索引、相似性搜索、分类和聚类 361
9.2 社会网络分析 363
9.2.1 什么是社会网络 363
9.2.2 社会网络的特征 365
9.2.3 链接挖掘:任务和挑战 367
9.2.4 挖掘社会网络 369
9.3 多关系数据挖掘 373
9.3.1 什么是多关系数据挖掘 373
9.3.2 多关系分类的ilp方法 375
9.3.3 元组id传播 376
9.3.4 利用元组id传播进行多关系分类 377
9.3.5 用户指导的多关系聚类 379
9.4 小结 382
习题 383
文献注释 384
第10章 挖掘对象、空间、多媒体、文本和web数据 386
10.1 复杂数据对象的多维分析和描述性挖掘 386
10.1.1 结构化数据的泛化 386
10.1.2 空间和多媒体数据泛化中的聚集和近似 387
10.1.3 对象标识和类/子类层次的泛化 388
10.1.4 类复合层次泛化 388
10.1.5 对象立方体的构造与挖掘 389
10.1.6 用分治法对规划数据库进行基于泛化的挖掘 389
10.2 空间数据挖掘 391
10.2.1 空间数据立方体构造和空间olap 392
10.2.2 挖掘空间关联和并置模式 395
10.2.3 空间聚类方法 396
10.2.4 空间分类和空间趋势分析 396
10.2.5 挖掘光栅数据库 396
10.3 多媒体数据挖掘 396
10.3.1 多媒体数据的相似性搜索 396
10.3.2 多媒体数据的多维分析 397
10.3.3 多媒体数据的分类和预测分析 399
10.3.4 挖掘多媒体数据中的关联 399
10.3.5 音频和视频数据挖掘 400
10.4 文本挖掘 401
10.4.1 文本数据分析和信息检索 401
10.4.2 文本的维度归约 405
10.4.3 文本挖掘方法 407
10.5 挖掘万维网 410
10.5.1 挖掘web页面布局结构 411
10.5.2 挖掘web链接结构识别权威web页面 413
10.5.3 挖掘web上的多媒体数据 416
10.5.4 web文档的自动分类 418
10.5.5 web使用挖掘 418
10.6 小结 419
习题 420
文献注释 421
第11章 数据挖掘的应用和发展趋势 424
11.1 数据挖掘的应用 424
11.1.1 金融数据分析的数据挖掘 424
11.1.2 零售业的数据挖掘 425
11.1.3 电信业的数据挖掘 426
11.1.4 生物学数据分析的数据挖掘 427
11.1.5 其他科技应用的数据挖掘 428
11.1.6 入侵检测的数据挖掘 429
11.2 数据挖掘系统产品和研究原型 430
11.2.1 如何选择数据挖掘系统 431
11.2.2 商用数据挖掘系统的实例 432
11.3 数据挖掘的其他主题 433
11.3.1 数据挖掘的理论基础 434
11.3.2 统计学数据挖掘 434
11.3.3 可视数据和音频数据挖掘 435
11.3.4 数据挖掘和协同过滤 440
11.4 数据挖掘的社会影响 440
11.4.1 无处不在和无形的数据挖掘 441
11.4.2 数据挖掘、隐私和数据安全 443
11.5 数据挖掘的发展趋势 445
11.6 小结 446
习题 447
文献注释 449
附录 微软用于数据挖掘的ole db简介 452
a.1 模型创建 453
a.2 模型训练 454
a.3 模型预测和浏览 456
索引 460
· · · · · ·
作者简介
Jiawei Han(韩家炜),是伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系的Bliss教授。他因知识发现和数据挖掘研究方面的贡献而获得许多奖励,包括ACM SIGKDD创新奖(2004)、IEEE计算机学会技术成就奖(2005)和IEEE W.Wallace McDowell奖(2009)。他是ACM和IEEE会士。他还担任《ACM Transactions on Knowledge Discovery from Data》的执行主编(2006—2011)和许多杂志的编委,包括《IEEE Transactions on Knowledge and Data Engineering》和《Data Mining Knowledge Discovery》。
拥有加拿大康考迪亚大学计算机科学硕士学位,现在加拿大西蒙弗雷泽大学从事博士后研究工作。
精彩摘录
并非所有的系统都进行真正的数据挖掘。不能处理大量数据的数据分析系统,最多只能称作机器学习系统、统计数据分析工具或实验系统原型。一个系统只能进行数据或者信息检索,包括在大型数据库中找出聚集值或回答演绎查询,更应归类为数据库系统,或信息检索系统,或演绎数据库系统。数据挖掘涉及多学科技术的集成,包括数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理以及空间或时间数据分析。
——引自第6页
对用户进行分类、对用户行为进行发掘数据挖掘可以提供比Web搜索服务更多的帮助。根据Web页面之间的链接关系,进行权威Web页面分析(authoritativeWebpageanalysis)可以根据Web页面的重要性、影响性和主题,对网页进行排序。自动Web页面聚类和分类有助于基于页面的内容,以多维的方式对Web页面进行分组和安排。Web社区分析有助于识别隐藏的Web社会网络和社团,并观察它们的演变。
——引自第13页