“如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。”
—— Bernhard Pfahringer, 新西兰怀卡托大学
本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。
本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有代码、数据集以及R函数包。
本书特色
通过仔细选择的案例涵盖了主要的数据挖掘技术。
给出的代码和方法可以方便地复制或者改编后应用于自己的问题。
不要求读者具有R、数据挖掘或统计技术的基础知识。
包含R和MySQL基础知识的简介。
提供了对数据挖掘技术的特性、缺点和分析目标的基本理解。
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
本书介绍了行为科学(重点是心理学)中用到的基本统计知识:描述性统计、简单的假设验证和最简单的多元统计。全书共分4个部分:第一部
《呼吸:音乐就在我们的身体里》内容简介:音乐就在呼吸里,就在身体里,就在人生里,就在历史里。古典音乐从来不会拒人于门外。再
《中国人的生活美学·饮食》内容简介:端午节、中秋节、春节、元宵节......中国传统节日怎么过;春分、立秋、夏至、立冬,不时不食
Inlively,mordantlywittyprose,Negropontedecodesthemysteries--anddebunksthehype--s...
如果计算机真正消除了文书工作,那么办公室的垃圾箱为什么老是装得满满的?为何银行自动兑款机前的队伍经常比出纳员窗口的队伍长
《持久内存架构与工程实践》内容简介:《持久内存架构与工程实践》以工程实践为导向,详细阐述了持久内存的整体技术节。对硬件和固
《城市交通出行行为分析及多方式交通协同组织理论与方法》内容简介:本书从基于活动的视角,研究了城市多方式交通网络中交通出行者
《书店寻踪:国营古旧书店之旅》内容简介:《书店寻踪:国营古旧书店之旅》是“芷兰斋书店寻访三部曲”之一,寻访对象是国营古旧书
《中国精神读本》内容简介:☆权威编委:王蒙领衔的强大编委团队,汇聚国内杰出人文学者 ☆精心选篇:遴选中国近代以来百余篇传世名
本书收集了作者在试验心理学这一研究领域发表过的五篇最著名的论文以及其他若干论文。每篇旧论文后面都有作者的后记,回顾该文发
《移动互联网商规28条》内容简介:如果说《22 条商规》是工业经济时代最重要的著作之一,那么本书则有可能成为移动互联网时代最具价
《安藤忠雄连战连败》是安藤忠雄继《安藤忠雄论建筑》一书后,根据其在东京大学建筑系讲课内容整理而成的又一部具有影响力的著作
Designerscreateworldsandsolveproblemsusingdesignthinking.Lookaroundyourofficeorh...
《MBA、MPA、MPAcc、MEM管理类联考综合能力逻辑最后冲刺18套卷(含快速提分技法)》内容简介:主要内容是作者收集的除了历年真题以
《控制阀设计及先进制造技术》内容简介:控制阀是过程自动化装置中极为重要的设备之一,是流程工业自动控制系统的执行器,流程控制
《儿童歌曲演唱教程 低幼版》内容简介:《儿童歌曲演唱教程(低幼版)》适合幼儿园和小学音乐教学使用。作者:尤静波、高歌作品目录
《使用html、css和javascript开发android程序》是《buildingandroidappswithhtml,css,andjavascrip...
ForreaderswhowanttodesignWebpagesthatloadquickly,areeasytoupdate,accessibletoall...
《AWS Lambda实战》内容简介:本书以实例为驱动,教会读者如何使用事件驱动的方法来开发后端应用程序。从AWSLambda的基础介绍开始,
《图文中国史》内容简介:樊树志教授为满足广大读者对于简明历史普及读物的需求,在毕生研究以及两部畅销通史著作——《国史概要》