数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能利用正确的工具和方法,就可以让数据清洗工作事半功倍。
本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程。
如果你是一位数据科学家,或者从事数据科学工作,哪怕是位新手,只要对数据清洗有兴趣,那么本书就适合你阅读!
第1章 为什么需要清洗数据1
1.1 新视角1
1.2 数据科学过程2
1.3 传达数据清洗工作的内容3
1.4 数据清洗环境4
1.5 入门示例5
1.6 小结9
第2章 基础知识——格式、 类型与编码11
2.1 文件格式11
2.1.1 文本文件与二进制文件11
2.1.2 常见的文本文件格式14
2.1.3 分隔格式14
2.2 归档与压缩20
2.2.1 归档文件20
2.2.2 压缩文件21
2.3 数据类型、空值与编码24
2.3.1 数据类型25
2.3.2 数据类型间的相互转换29
2.3.3 转换策略30
2.3.4 隐藏在数据森林中的空值37
2.3.5 字符编码41
2.4 小结46
第3章 数据清洗的老黄牛——电子表格和文本编辑器47
3.1 电子表格中的数据清洗47
3.1.1 Excel的文本分列功能47
3.1.2 字符串拆分51
3.1.3 字符串拼接51
3.2 文本编辑器里的数据清洗54
3.2.1 文本调整55
3.2.2 列选模式56
3.2.3 加强版的查找与替换功能56
3.2.4 文本排序与去重处理58
3.2.5 Process Lines Containing60
3.3 示例项目60
3.3.1 第一步:问题陈述60
3.3.2 第二步:数据收集60
3.3.3 第三步:数据清洗61
3.3.4 第四步:数据分析63
3.4 小结63
第4章 讲通用语言——数据转换64
4.1 基于工具的快速转换64
4.1.1 从电子表格到CSV65
4.1.2 从电子表格到JSON65
4.1.3 使用phpMyAdmin从SQL
语句中生成CSV或JSON67
4.2 使用PHP实现数据转换69
4.2.1 使用PHP实现SQL到JSON的数据转换69
4.2.2 使用PHP实现SQL到CSV的数据转换70
4.2.3 使用PHP实现JSON到CSV的数据转换71
4.2.4 使用PHP实现CSV到JSON的数据转换71
4.3 使用Python实现数据转换72
4.3.1 使用Python实现CSV到JSON的数据转换72
4.3.2 使用csvkit实现CSV到JSON的数据转换73
4.3.3 使用Python实现JSON到CSV的数据转换74
4.4 示例项目74
4.4.1 第一步:下载GDF格式的Facebook数据75
4.4.2 第二步:在文本编辑器中查看GDF文件75
4.4.3 第三步:从GDF格式到JSON格式的转换76
4.4.4 第四步:构建D3图79
4.4.5 第五步:把数据转换成Pajek格式81
4.4.6 第六步:简单的社交网络分析83
4.5 小结84
第5章 收集并清洗来自网络的数据85
5.1 理解HTML页面结构85
5.1.1 行分隔模型86
5.1.2 树形结构模型86
5.2 方法一:Python和正则表达式87
5.2.1 第一步:查找并保存实验用的Web文件88
5.2.2 第二步:观察文件内容并判定有价值的数据88
5.2.3 第三步:编写Python程序把数据保存到CSV文件中89
5.2.4 第四步:查看文件并确认清洗结果89
5.2.5 使用正则表达式解析HTML的局限性90
5.3 方法二:Python和BeautifulSoup90
5.3.1 第一步:找到并保存实验用的文件90
5.3.2 第二步:安装BeautifulSoup91
5.3.3 第三步:编写抽取数据用的Python程序91
5.3.4 第四步:查看文件并确认清洗结果92
5.4 方法三:Chrome Scraper92
5.4.1 第一步:安装Chrome扩展Scraper92
5.4.2 第二步:从网站上收集数据92
5.4.3 第三步:清洗数据94
5.5 示例项目:从电子邮件和论坛中抽取数据95
5.5.1 项目背景95
5.5.2 第一部分:清洗来自Google Groups电子邮件的数据96
5.5.3 第二部分:清洗来自网络论坛的数据99
5.6 小结105
第6章 清洗PDF文件中的数据106
6.1 为什么PDF文件很难清洗106
6.2 简单方案——复制107
6.2.1 我们的实验文件107
6.2.2 第一步:把我们需要的数据复制出来108
6.2.3 第二步:把复制出来的数据粘贴到文本编辑器中109
6.2.4 第三步:轻量级文件110
6.3 第二种技术——pdfMiner111
6.3.1 第一步:安装pdfMiner111
6.3.2 第二步:从PDF文件中提取文本111
6.4 第三种技术——Tabula113
6.4.1 第一步:下载Tabula113
6.4.2 第二步:运行Tabula113
6.4.3 第三步:用Tabula提取数据114
6.4.4 第四步:数据复制114
6.4.5 第五步:进一步清洗114
6.5 所有尝试都失败之后——第四种技术115
6.6 小结117
第7章 RDBMS清洗技术118
7.1 准备118
7.2 第一步:下载并检查Sentiment140119
7.3 第二步:清洗要导入的数据119
7.4 第三步:把数据导入MySQL120
7.4.1 发现并清洗异常数据121
7.4.2 创建自己的数据表122
7.5 第四步:清洗&字符123
7.6 第五步:清洗其他未知字符124
7.7 第六步:清洗日期125
7.8 第七步:分离用户提及、标签和URL127
7.8.1 创建一些新的数据表128
7.8.2 提取用户提及128
7.8.3 提取标签130
7.8.4 提取URL131
7.9 第八步:清洗查询表132
7.10 第九步:记录操作步骤134
7.11 小结135
第8章 数据分享的最佳实践136
8.1 准备干净的数据包136
8.2 为数据编写文档139
8.2.1 README文件139
8.2.2 文件头141
8.2.3 数据模型和图表142
8.2.4 维基或CMS144
8.3 为数据设置使用条款与许可协议144
8.4 数据发布146
8.4.1 数据集清单列表146
8.4.2 Stack Exchange上的Open Data147
8.4.3 编程马拉松147
8.5 小结148
第9章 Stack Overflow项目149
9.1 第一步:关于Stack Overflow的问题149
9.2 第二步:收集并存储Stack Overflow数据151
9.2.1 下载Stack Overflow数据151
9.2.2 文件解压152
9.2.3 创建MySQL数据表并加载数据152
9.2.4 构建测试表154
9.3 第三步:数据清洗156
9.3.1 创建新的数据表157
9.3.2 提取URL并填写新数据表158
9.3.3 提取代码并填写新表159
9.4 第四步:数据分析161
9.4.1 哪些代码分享网站最为流行161
9.4.2 问题和答案中的代码分享网站都有哪些162
9.4.3 提交内容会同时包含代码分享URL和程序源代码吗165
9.5 第五步:数据可视化166
9.6 第六步:问题解析169
9.7 从测试表转向完整数据表169
9.8 小结170
第10章 Twitter项目171
10.1 第一步:关于推文归档数据的问题171
10.2 第二步:收集数据172
10.2.1 下载并提取弗格森事件的
数据文件173
10.2.2 创建一个测试用的文件174
10.2.3 处理推文ID174
10.3 第三步:数据清洗179
10.3.1 创建数据表179
10.3.2 用Python为新表填充数据180
10.4 第四步:简单的数据分析182
10.5 第五步:数据可视化183
10.6 第六步:问题解析186
10.7 把处理过程应用到全数据量(非测试用)数据表186
10.8 小结187
语音处理及人机交互技术 本书特色 《语音处理及人机交互技术/智能科学技术著作丛书》是在作者张毅、刘想德、罗元多年从事服务机器人及信息无障碍技术的基础上总结所取得...
移动通信行业自1995年以来经历了一个高速发展的时期,吸引了大量的人才。由于行业内部普遍薪酬较高,有稳定的发展空间,是即将毕
《犹太人智慧全书》内容简介:犹太民族并非上帝的宠儿,他们的成功是由苦难的历史铸就的。犹太民族长期饱受躁躏、放逐、杀戮,面对
《平面设计材料表现与特殊效果》是一本涉及到数百种处理方式的指导书,并讲述了在你的设计中如何正确运用这些处理方式的相关知识
SolidWorks快速入门教程 本书特色 本书是学习SolidWorks2016中文版的快速入门与提高教程,内容包括SolidWorks2016功能概述、软件...
本书是国内第一部系统阐述如何开发基于,lava的Web动态图表的专著。不仅详述了如何利用Java对图形的处理能力,通过JavaApplet、J
《中国法制史》内容简介:中国法制史是研究中国法制发生、发展、演变及其规律的学科。它是中国制度史的一部分,是法学体系中的独立
数位达尔文主义 本书特色 在这本书中,作者对高度竞争的网络经济进行了前所未有的深入考察,概括出立足网络的企业在形形色色的网上市场中生存与发展的7个关键战略。通过...
《GitHub入门与实践》内容简介:本书从Git的基本知识和操作方法入手,详细介绍了GitHub的各种功能,GitHub与其他工具或服务的协作,
《疯狂Java讲义》2000年至今,Java语言一直是应用最广的开发语言,并拥有最广泛的开发人群。如今,Java已经不再简单地是一门语言
ThisbookwillintroduceyoutothePythonprogramminglanguage.It’saimedatbeginningprogr...
《安藤忠雄连战连败》是安藤忠雄继《安藤忠雄论建筑》一书后,根据其在东京大学建筑系讲课内容整理而成的又一部具有影响力的著作
本书详细介绍ExtJS框架体系结构,以及利用HTML/CSS/JavaScript进行前端设计的方法和技巧。作者为Ext中文站站长领衔的三个国内Ext
那是一個不羈的年代:一個充滿示威抗議、迷幻藥實驗、反傳統社群,和無政府理想主義的時代。一九六○年代,美國社會歷經大幅動盪
信息系统项目管理师考试辅导-(针对下午考试) 内容简介 本书按照人力资源和社会保障部、工业和信息化部全国计算机技术与软件专业技术资格(不平)考试要求编写。作者依...
《刘晓蕾《红楼梦》十二讲》内容简介:读过和没有读过《红楼梦》,生命中有些东西是不一样的。《红楼梦》无疑是阻隔在读者面前的一
《学习正则表达式》从正则表达式的基本概念讲起,到编写完整的sed和Perl脚本,再到转换HTML文件,将这种强大的工具解释得清晰透彻
HCNP路由交换实验指南 修订版 本书特色 本书基于eNSP搭建企业网络真实场景,给出大量的配置实例,将真实场景与配置实例紧密结合,使读者能够快捷、直观、深刻地...
《西南联大国学课》内容简介:西南联大的通识教育深刻地影响了中国的一代学者,为他们所创造的成就奠定了深厚的基础。本套图书力图
要想在网络经济中取得竞争优势,仅有网络是远远不够的,本书是为那些面临规划网络战略重任的经理们所写的,这些战略将为他们公司