“如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。”
—— Bernhard Pfahringer, 新西兰怀卡托大学
本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。
本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有代码、数据集以及R函数包。
本书特色
通过仔细选择的案例涵盖了主要的数据挖掘技术。
给出的代码和方法可以方便地复制或者改编后应用于自己的问题。
不要求读者具有R、数据挖掘或统计技术的基础知识。
包含R和MySQL基础知识的简介。
提供了对数据挖掘技术的特性、缺点和分析目标的基本理解。
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
《教你读懂年报》内容简介:本书是解读上市公司年报的专著,涵盖了对上市公司年报所有12个章节的剖析。本书的所有案例都来自上市公
《影响数学世界的猜想与问题·从开普勒到阿诺德:三体问题的历史》共分五编:第一编为古典理论卷,第二编为重刚体绕不动点运动问题
《神一样的产品经理》内容简介:《神一样的产品经理:基于移动与互联网产品实践》系统阐述了移动与互联网产品从无到有、从有到优的
《工业设计心理学》针对传统工业设计以技术为本和以机器为本所带来的种种弊端,详细阐述了以人为本的设计思想和方法,以期推动国
《软萌可爱色铅笔涂画教程》内容简介:总觉得用色铅笔画的东西不够可爱,用色不够靓丽,被五花八门的色铅笔教程挑花了眼?这本本书
Visual C++编程技巧精选集-(附光盘1张) 本书特色 本书特色*简单、*直观、*快捷的学习方式*实用,*经典、*新颖的编程主题多角度,多层次、多领域的开...
《CSSWeb设计高级教程(第2版)》注重Web开发的实践,每章以现实中的Web站点为例,提供了很多容易理解的CSS技巧和技术,例如,如何
《人力资源管理互联网思维》内容简介:本书采取“思维创新、顶层设计、体系重构、案例解读、规律提炼、转移运用”六大方法,以社会
本书介绍了常用Windows软件和Web页的用户界面设计方法,分析了用户界面各个要素的具体设计准则,说明了用户与计算机之间通过鼠标
本书全面介绍了经典的和现代的网络流技术,包括综合的理论、算法与应用。主要内容包括:路径、树与周期,算法设计与分析,最大流
本书由一个团队编写而成,这个团队的成员都是一些经验丰富且专注于JavaScript的开发者。TomHallett是一位高级Ruby和JavaScript工
WorldofWarcraftrapidlybecameoneofthemostpopularonlineworldgamesontheplanet,amass...
《设计必修课:中文版After Effects CC动画制作+视频剪辑+特效包装设计教程(微课视频全彩版)》内容简介:本书After Effects 是Ad
UI设计作为近两三年新型的设计门类吸引了越来越多的设计师加入其中。与其他设计不同,UI设计师需要更加深入地了解用户心理、技术
《方汉奇文集(增订版)》内容简介:《方汉奇文集》(增订版)收录了方先生半个多世纪的研究成果和心得,史料丰富、考据严谨、笔法
《算法导论》自第一版出版以来,已经成为世界范围内广泛使用的大学教材和专业人员的标准参考手册。这本书全面论述了算法的内容,
《一图一例BIM钢筋算量》内容简介:本书共五章,第一章从BIM基础知识讲起,逐渐拓展到BIM在建筑行业领域的应用,使读者对BIM技术有
薄膜晶体管液晶显示器显示原理与设计 本书特色 本书基于薄膜晶体管液晶显示器的生产和设计实践,首先介绍了薄膜晶体管液晶显示器的基本概念和器件原理,然后以产品开发的...
《不教一日闲过:回忆齐白石》内容简介:齐白石是融诗、书、画、印为一体的艺术大师,是二十世纪唯一被选为世界文化名人的中国艺术
《15天学会JavaScript(视频教学版)》内容简介:本书从技术和实际应用场景相结合的角度出发,结合当下热门技术(JavaScript、ECMA