书刊介绍
《数据挖掘技术与工程实践》内容简介
数据挖掘是当前最活跃的领域之一。本书作者根据自己20年数据挖掘方面的经验,总结了数据挖掘的理论知识和实践经验,提供了大量一线资料。本书首先介绍数据挖掘的概念和误区,然后介绍数据探索的方法,包括数据查探、数据描绘、数据变换、数据优化等,重点介绍了相关算法,包括:相关因子算法、聚类算法、分类算法、回归与测试算法等。不仅列举了详细示例,还介绍了算法在工程实践中的具体应用,特别是总结了自己独特的一些新算法,例如秩相关因子选择算法、矢量相关因子选择算法、密度分布聚类算法、概率特征模型算法等。还剖析了几个热门领域的实际应用,涉及医药学、信息安全、新闻分析、商品推荐、证券预测等领域的应用。最后归纳总结了数据挖掘应用系统的开发方案,并介绍一个数据挖掘工具的应用。本书可供数据挖掘、数据仓库、数据库等领域的技术人员参考,也可供想建立智能计算系统的企业信息系统管理人员参考。
Hong Song Lin(洪松林) 福安易数据技术(天津)有限公司(F&E DATA TECHNOLOGY CORP. )创始人,外国专家局引智技术专家,加拿大OCP认证专家,有20年智能计算(数据仓库、商务智能及数据挖掘)方面的研究、设计、开发和培训经验。掌握北美先进的项目经验,曾在加拿大安大略省卫生部(OMH)、蒙特利尔银行(BMO)、加拿大研科电讯公司(TELUS )、安省高教委(OCAS)等大型机构参与多个大型智能计算项目。近年来在国内主持多个智能计算产品的总体设计和研发工作,将北美的智能计算技术及业务经验与中国的专业需求和数据环境有效地结合起来,开发了以数据仓库、数据挖掘和数据统计为技术核心的智能数据分析产品,国内首创,并在北京、天津等地得到成功应用。作品目录
数据挖掘技术与工程实践
前言
第1章:数据挖掘应用绪论
1.1、认识数据挖掘
1.1.1、数据挖掘概念
1.1.1.1、数据的“形状”
1.1.1.2、挖掘的思维
1.1.1.3、数据挖掘要素
1.1.2、数据挖掘与生活
1.1.3、数据挖掘与知识
1.2、数据挖掘应用基础
1.2.1、事物与维度
1.2.2、分布与关系
1.2.3、描绘与预测
1.2.4、现象和知识
1.2.5、规律与因果
1.3、数据挖掘应用系统工程
1.3.1、数据层
1.3.1.1、数据来源
1.3.1.2、数据流
1.3.1.3、数据的提取与利用
1.3.1.4、数据的先验知识
1.3.2、算法层
1.3.2.1、分布探索
1.3.2.2、异常探索
1.3.2.3、关系探索
1.3.3、应用层
1.3.3.1、数据挖掘的专业应用
1.3.3.2、面向行业的应用产品
1.4、数据挖掘应用体会
1.4.1、项目关键点
1.4.2、技术与应用创新
1.4.3、经验积累与应用
1.5、无限三维嵌套空间假说
1.5.1、一维空间
1.5.2、二维空间
1.5.3、三维空间
1.5.4、突破三维空间
1.5.5、五维空间
1.5.6、六维空间
1.6、本章小结
第2章:数据探索与准备
2.1、数据关系探索
2.1.1、业务发现
2.1.2、关系发现
2.1.2.1、表间关系发现
2.1.2.2、表内关系发现
2.1.3、数据质量探索
2.1.3.1、模式分析
2.1.3.2、统计分析
2.1.4、数据整合
2.1.4.1、数据链接和匹配
2.1.4.2、数据统一整合
2.2、数据特征探索
2.2.1、数据的统计学特征
2.2.1.1、变量类型
2.2.1.2、描述统计分析
2.2.1.3、概率分布分析
2.2.2、统计学特征应用
2.3、数据选择
2.3.1、适当的数据规模
2.3.2、数据的代表性
2.3.2.1、数据有偏
2.3.2.2、数据干扰
2.3.2.3、数据偏倚
2.3.3、数据的选取
2.3.3.1、随机抽样
2.3.3.2、偏倚和变异
2.3.3.3、推测总体
2.3.3.4、总体抽取
2.4、数据处理
2.4.1、数据标准化
2.4.1.1、变量离差标准化
2.4.1.2、变量标准差标准化
2.4.2、数据离散化
2.4.2.1、离散化概念
2.4.2.2、离散化处理过程
2.4.2.3、离散化常用方法
2.5、统计学算法的数量条件
2.5.1、样本量估计概念
2.5.2、单样本总体均值比较的样本量估计(T-Test)
2.5.3、两样本总体均值比较的样本量估计(T-Test)
2.5.4、多样本总体均值比较的样本量估计(F-Test)
2.5.5、区组设计多样本总体均值比较的样本量估计(F-Test)
2.5.6、直线回归与相关的样本量估计
2.5.7、对照分析的样本量估计
2.6、数据探索应用
2.6.1、检验项的疾病分布
2.6.2、疾病中检验项的分布
2.6.3、成对检验项的相关分析
2.6.4、两种药物的应用分析
2.7、本章小结
第3章:数据挖掘应用算法
3.1、聚类分析
3.1.1、划分聚类算法(K均值)
3.1.1.1、K-Means算法概念
3.1.1.2、K-Means算法流程
3.1.2、层次聚类算法(组平均)
3.1.2.1、凝聚的方法
3.1.2.2、分裂的方法
3.1.2.3、综合层次聚类方法
3.1.3、密度聚类算法
3.1.3.1、密度算法概念
3.1.3.2、DBSCAN算法
3.2、特性选择
3.2.1、特性选择概念
3.2.1.1、特性选择步骤
3.2.1.2、特性选择方法
3.2.2、线性相关算法
3.2.2.1、Pearson相关
3.2.2.2、Spearman秩相关
3.2.3、相关因子SRCF算法
3.2.3.1、SRCF算法概念
3.2.3.2、算法一:SRCF1、3.2.3.3、算法二:SRCF2、3.2.3.4、SRCF相关因子评估
3.3、特征抽取
3.3.1、主成分分析算法
3.3.1.1、主成分分析算法思想
3.3.1.2、主成分分析算法实现
3.3.2、因子分析算法
3.3.2.1、因子分析算法思想
3.3.2.2、因子分析算法实现
3.3.3、非负矩阵因子分解NMF算法
3.3.3.1、NMF算法思想
3.3.3.2、NMF算法实现
3.4、关联规则
3.4.1、关联规则概念
3.4.2、Apriori算法
3.4.2.1、Apriori算法思想
3.4.2.2、Apriori算法实现
3.4.3、FP树频集算法
3.4.3.1、FP树频集算法思想
3.4.3.2、FP树频集算法实现
3.4.4、提升Lift
3.5、分类和预测
3.5.1、支持向量机
3.5.1.1、最大边缘超平面
3.5.1.2、线性完全可分支持向量机
3.5.1.3、线性不完全可分支持向量机
3.5.1.4、非线性支持向量机
3.5.2、Logistic回归算法
3.5.2.1、Logistic回归算法思想
3.5.2.2、Logistic回归算法流程
3.5.2.3、Logistic回归算法的用途
3.5.3、朴素贝叶斯分类算法
3.5.3.1、贝叶斯公式
3.5.3.2、贝叶斯公式扩展应用
3.5.3.3、朴素贝叶斯分类算法
3.5.4、决策树
3.5.4.1、决策树算法原理
3.5.4.2、决策属性选择
3.5.4.3、决策树应用举例(ID3算法)
3.5.5、人工神经网络
3.5.5.1、信息感知器原理
3.5.5.2、BP人工神经网络原理
3.5.6、分类与聚类的关系
3.6、时间序列
3.6.1、灰色系统预测模型
3.6.1.1、灰色系统理论
3.6.1.2、灰色系统预测
3.6.1.3、灰色系统预测模型原理
3.6.2、ARIMA模型预测
3.6.2.1、ARIMA模型的核心思想
3.6.2.2、ARIMA模型预测的流程
3.7、本章小结
第4章:数据挖掘应用案例
4.1、特性选择的应用
4.1.1、数据整合
4.1.2、数据描绘
4.1.3、数据标准化
4.1.4、特性选择探索
4.2、分类模型的应用——算法比较
4.2.1、数据整合
4.2.2、数据描绘
4.2.3、数据标准化
4.2.4、特性选择探索
4.2.4.1、应用SRCF算法
4.2.4.2、SRCF算法和MDL算法比较
4.2.5、分类模型
4.3、分类模型的应用——网络异常侦测
4.3.1、计算机网络异常行为
4.3.2、网络异常数据模型
4.3.2.1、数据表Abnm_Info
4.3.2.2、数据表Sample
4.3.2.3、数据表Abnm_List
4.3.2.4、数据表Abnm_List_url
4.3.2.5、表结构关系
4.3.2.6、数据准备
4.3.3、分类模型算法应用
4.3.3.1、分类算法的选择
4.3.3.2、分类算法的组合应用
4.4、算法的综合应用——肿瘤标志物的研究
4.4.1、样本选取
4.4.1.1、观察组样本的选取
4.4.1.2、观察组样本的特征分析
4.4.1.3、对照组样本的选取
4.4.1.4、对照组样本的特征验证
4.4.2、癌胚抗原临床特征主题分析
4.4.2.1、应用特征抽取模型
4.4.2.2、数据准备
4.4.2.3、特征抽取算法
4.4.2.4、观察组模型结果
4.4.3、癌胚抗原临床特征规则分析
4.4.3.1、应用关联规则模型
4.4.3.2、关联规则算法
4.4.3.3、观察组模型结果
4.4.3.4、观察组模型的Lift指标
4.4.3.5、对照组模型结果
4.4.4、癌胚抗原临床特征规则的比较分析
4.4.5、癌胚抗原相关因子分析
4.4.5.1、样本选取
4.4.5.2、应用特性选择模型
4.4.5.3、统计学验证分析
4.4.6、不同等级癌胚抗原组差异分析
4.4.6.1、应用聚类模型
4.4.6.2、天冬氨酸氨基转移酶差异分析
4.4.6.3、高密度脂蛋白差异分析
4.5、数据挖掘在其他领域中的应用
4.6、本章小结
第5章:数据挖掘行业应用原理
5.1、传统医学科研方法的现状
5.1.1、传统医学科研的命题与假说
5.1.2、传统医学科研的数据应用
5.1.3、传统的医学科研的统计学应用
5.1.4、传统医学科研的流程
5.2、智能医学科研系统的需求
5.2.1、临床医学科研的问题
5.2.2、临床医学科研的解决思路
5.3、智能医学科研系统的设计思想
5.3.1、科研立题
5.3.2、科研设计与统计分析
5.3.3、样本数据收集与分析
5.4、智能医学科研系统的核心技术方法
5.5、智能医学科研系统的科研数据仓库建设
5.5.1、医学科研数据仓库建设的技术方法
5.5.2、医学科研数据仓库的建设过程
5.5.2.1、分散的业务数据源分析
5.5.2.2、医学科研数据仓库的技术设计
5.5.2.3、医学科研数据仓库的数据整合
5.5.3、科研数据仓库的数据安全
5.6、智能医学科研系统的核心功能设计
5.7、智能医学科研系统的整体功能设计
5.7.1、智能医学科研系统主要功能
5.7.2、智能医学科研系统的模块设计和应用实现
5.7.2.1、聚类模型
5.7.2.2、关联规则
5.7.2.3、特征抽取
5.7.2.4、特性选择
5.7.2.5、分类模型
5.7.2.6、异常侦测
5.7.2.7、回归预测
5.7.3、智能医学科研系统的评估方法
5.7.3.1、聚类分析的评估方法
5.7.3.2、关联规则的评估方法
5.7.3.3、特征抽取的评估方法
5.7.3.4、特性选择的评估方法
5.7.3.5、异常侦测的评估方法
5.7.3.6、回归预测的评估方法
5.7.3.7、分类模型的评估方法
5.8、智能医学科研系统的应用价值
5.9、本章小结
第6章:数据挖掘应用系统的开发
6.1、数据挖掘应用系统的意义
6.2、IMRS系统设计
6.2.1、对数据源的分析
6.2.1.1、业务系统的数据源构成
6.2.1.2、业务系统的数据模型分析
6.2.2、数据挖掘应用系统IMRS的总体设计
6.2.2.1、异种数据连接的架构设计
6.2.2.2、数据仓库的ETL设计
6.2.2.3、数据仓库的数据模型设计
6.2.2.4、数据挖掘的API工具选择
6.2.2.5、系统架构设计
6.3、IMRS异常侦测模型的开发
6.3.1、异常侦测模型的功能展示
6.3.1.1、数据准备
6.3.1.2、模型运行
6.3.1.3、模型分析
6.3.2、数据挖掘技术开发要点
6.3.2.1、数据变换与准备
6.3.2.2、异常侦测模型建立
6.3.2.3、异常侦测模型的展现
6.4、IMRS特征抽取模型的开发
6.4.1、特征抽取模型的功能展示
6.4.2、数据挖掘技术开发要点
6.4.2.1、数据变换与准备
6.4.2.2、特征抽取模型建立
6.4.2.3、特征抽取模型的展现
6.5、IMRS智能统计模型的开发
6.5.1、回归模型的开发实现
6.5.1.1、计算线性回归方程
6.5.1.2、计算线性回归模型的五个统计图
6.5.1.3、统计检验
6.5.1.4、计算置信带可信区间
6.5.1.5、回归预测
6.5.1.6、建立非线性回归模型
6.5.2、线性相关模型的开发实现
6.5.2.1、二元正态分布验证
6.5.2.2、计算线性相关模型散点图
6.5.2.3、计算Spearman秩相关系数
6.5.2.4、计算Pearson相关系数
6.6、IMRS的算法开发
6.6.1、相关因子算法SRCF的实现
6.6.1.1、算法思想
6.6.1.2、逻辑算法
6.6.1.3、算法实现
6.6.1.4、界面功能
6.6.2、朴素贝叶斯分类算法的实现
6.6.2.1、数据准备
6.6.2.2、算法过程
6.6.2.3、模型验证
6.6.2.4、界面应用
6.7、本章小结
第7章:数据挖掘应用系统的应用
7.1、分布探索
7.1.1、两维度聚类模型应用
7.1.2、高维度聚类模型应用
7.2、关系探索
7.2.1、关联规则的应用
7.2.2、特性选择的应用
7.2.2.1、连续型特性选择的应用
7.2.2.2、离散型特性选择的应用
7.3、特征探索
7.3.1、不稳定心绞痛的特征总结
7.3.2、动脉硬化心脏病的临床特征
7.4、异常探索
7.4.1、生理指标的异常侦测
7.4.2、异常侦测模型的比较
7.5、推测探索
生理指标预测分析
7.6、应用系统的高级应用
7.6.1、异常侦测的高级用法
7.6.1.1、健康与非健康的应用
7.6.1.2、同质性和异质性的应用
7.6.2、关联规则的高级应用
7.6.2.1、对不同并发模式的兴趣
7.6.2.2、负模式规则和零模式规则
7.6.2.3、关联规则的方向性
7.6.2.4、关联规则的时间性
7.7、本章小结
第8章:数据挖掘工具的应用
8.1、应用Oracle
Data
Mining
8.1.1、ODM数据挖掘流程
8.1.1.1、问题定义
8.1.1.2、数据收集和准备
8.1.1.3、模型建立和评估
8.1.1.4、知识部署
8.1.2、ODM算法模型
8.1.2.1、聚类
8.1.2.2、特性选择
8.1.2.3、关联规则
8.1.2.4、特征抽取
8.1.2.5、异常侦测
8.1.2.6、分类模型
8.1.2.7、回归预测
8.1.3、ODM算法应用
8.1.3.1、特性选择:区分恶性肿瘤病人的属性
8.1.3.2、分类模型:恶性肿瘤病人的分类预测
8.1.3.3、聚类模型:肺癌病人的合并症与分型
8.1.3.4、回归预测:股票日预测和周预测
8.2、应用IBM
SPSS
Modeler
8.2.1、IBM
SPSS
Modeler介绍
8.2.2、SPSS
Modeler独立应用
8.2.2.1、线性模型:实验室指标的初探
8.2.2.2、关联规则:多种并发症的关联探索
8.2.3、SPSS
Modeler与应用系统的联合应用
8.2.3.1、分类模型:疾病分类
8.2.3.2、回归预测:疾病的预测探索
8.3、本章小结
参考文献