“如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。”
—— Bernhard Pfahringer, 新西兰怀卡托大学
本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。
本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有代码、数据集以及R函数包。
本书特色
通过仔细选择的案例涵盖了主要的数据挖掘技术。
给出的代码和方法可以方便地复制或者改编后应用于自己的问题。
不要求读者具有R、数据挖掘或统计技术的基础知识。
包含R和MySQL基础知识的简介。
提供了对数据挖掘技术的特性、缺点和分析目标的基本理解。
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
TheVisualMiscellaneumisaunique,groundbreakinglookatthemoderninformationage,helpi...
本报告在《创新2050:科学技术与中国的未来》科技发展路线图和学科发展研究的基础上,前瞻未来10年世界科技发展,提出在一些重要
《VHDL数字电路设计教程》共分为三个基本组成部分,首先详细介绍VHDL语言的背景知识、基本语法结构和VHDL代码的编写方法;然后介
《清末白话报刊与文学革命》内容简介:五四文学革命的发生,是清末以来数十年时间中,社会环境和文学自身不断发展演化的结果。清末
本书是一部优秀的、注重实践的JavaScript教程。作者首先概览了JavaScript,包括它的语法、良好的编码习惯、DOM编程原则等;然后构
《新手易学——Excel 2010电子表格制作》内容简介:本书主要针对Excel 2010软件进行讲解,读者可以从零学起,逐渐掌握并精通各种操
《谁是下一百个亿万富翁》内容简介:这是一个最好的时代,无数有梦想的创业者将在这场已经爆发的移动互联网革命中缔造新的创富神话
《汇编语言与计算机体系结构》是一本优秀的汇编语言和计算机体系结构教材?书中通过设计并且逐步完善一个简单计算机模型HI,系统
《中国区域经济发展报告(2018)》内容简介:2019年是我国改革开放的第41年,也是区域经济学成立的第30年,因此本书以“回顾改革开
《中国有文化》内容简介:本书意在呈现南怀瑾先生对于中国文化总体脉络、特色和价值的概述。南怀瑾先生对于中国历史文化有很多独到
《国外电子与通信教材系列·无线通信》深入浅出地讲解了无线通信原理、技术和系统设计的所涉及到的各个方面。全书共分5个部分,2
《给孩子的另类科普:一万亿个外婆》内容简介:这是一本科普版《爱丽丝漫游奇境记》、温暖心灵的科学漫游故事,涉及星际旅行、分子
《MySQL高可用实践》内容简介:MySQL数据库是现代软件系统基础应用的核心组成部分,如何保持MySQL的高可用性在系统应用中就变得极为
本书精选了近1000个国外不同风格的网页,按色彩分成十个色系。每个色系先简要介绍该色系的特点与意义,列出该色系的常用搭配关系
信息系统与数据库技术 内容简介 本书属于上海市教育委员会组编的“高等院校计算机基础综合应用能力培养规划教材”系列,可以从机械工业出版社教材服务网(www.cmp...
BuildingResponsiveWebApplicationswithAJAXandPHPisthemostpracticalandefficientres...
网格是所有设计的基础,对设计师来说,学会运用网格是进行所有设计的基础。运用从一栏到多栏网格,与文字、色彩、图像及其他诸多
本书讲述了一个来自圣迭戈的小公司如何翻新了无线通信业并带给市场一种全新的体验。这不是一本技术指南,而是一部传奇。读过它,
在今天不可持续的商品社会,人们购买到渴望已久的商品,只是短暂的使用,就迅速地丢弃然后又去寻求新的,消耗和浪费疯长,进而失
《华杉讲透《资治通鉴》9》内容简介:《资治通鉴》从战国写到五代十国,生动展现了十六个朝代一千三百六十二年历史中一个个活生生的