This hands-on guide demonstrates how the flexibility of the command line can help you become a more efficient and productive data scientist. You’ll learn how to combine small, yet powerful, command-line tools to quickly obtain, scrub, explore, and model your data.
To get you started—whether you’re on Windows, OS X, or Linux—author Jeroen Janssens introduces the Data Science Toolbox, an easy-to-install virtual environment packed with over 80 command-line tools.
Discover why the command line is an agile, scalable, and extensible technology. Even if you’re already comfortable processing data with, say, Python or R, you’ll greatly improve your data science workflow by also leveraging the power of the command line.
●Obtain data from websites, APIs, databases, and spreadsheets
●Perform scrub operations on plain text, CSV, HTML/XML, and JSON
●Explore data, compute descriptive statistics, and create visualizations
●Manage your data science workflow using Drake
●Create reusable tools from one-liners and existing Python or R code
●Parallelize and distribute data-intensive pipelines using GNU Parallel
●Model data with dimensionality reduction, clustering, regression, and classification algorithms
Chapter 1 Introduction
Overview
Data Science Is OSEMN
Intermezzo Chapters
What Is the Command Line?
Why Data Science at the Command Line?
A Real-World Use Case
Further Reading
Chapter 2 Getting Started
Overview
Setting Up Your Data Science Toolbox
Essential Concepts and Tools
Further Reading
Chapter 3 Obtaining Data
Overview
Copying Local Files to the Data Science Toolbox
Decompressing Files
Converting Microsoft Excel Spreadsheets
Querying Relational Databases
Downloading from the Internet
Calling Web APIs
Further Reading
Chapter 4 Creating Reusable Command-Line Tools
Overview
Converting One-Liners into Shell Scripts
Creating Command-Line Tools with Python and R
Further Reading
Chapter 5 Scrubbing Data
Overview
Common Scrub Operations for Plain Text
Working with CSV
Working with HTML/XML and JSON
Common Scrub Operations for CSV
Further Reading
Chapter 6 Managing Your Data Workflow
Overview
Introducing Drake
Installing Drake
Obtain Top Ebooks from Project Gutenberg
Every Workflow Starts with a Single Step
Well, That Depends
Rebuilding Specific Targets
Discussion
Further Reading
Chapter 7 Exploring Data
Overview
Inspecting Data and Its Properties
Computing Descriptive Statistics
Creating Visualizations
Further Reading
Chapter 8 Parallel Pipelines
Overview
Serial Processing
Parallel Processing
Distributed Processing
Discussion
Further Reading
Chapter 9 Modeling Data
Overview
More Wine, Please!
Dimensionality Reduction with Tapkee
Clustering with Weka
Regression with SciKit-Learn Laboratory
Classification with BigML
Further Reading
Chapter 10 Conclusion
Let’s Recap
Three Pieces of Advice
Where to Go from Here?
Getting in Touch
《桂海论痕》内容简介:本书主要研究广西当代作家、作品。作者用颇具才情的笔墨,为读者勾勒了一幅广西当代文坛地图,脉络清晰,文
管理运筹学和MATLAB软件应用 内容简介 本书从现代管理科学研究和实际应用的角度出发,将运筹学的原理、建模方法、应用事例和MATLAB软件计算有机地结合起来,...
《书店寻踪:国营古旧书店之旅》内容简介:《书店寻踪:国营古旧书店之旅》是“芷兰斋书店寻访三部曲”之一,寻访对象是国营古旧书
《2020区块链漫游指南》内容简介:本书是一本区块链技术的学习指南。本书各章命名为“星系”,共分为6个星系,围绕区块链概念及其技
中文版AutoCAD2004经典实例158例 内容简介 Autocad2004是美国Autodesk公司开发的通用计算机辅助绘图与设计系列软件,是当今工程设计领...
《数字调制解调基础(双色)》是21世纪电子电气工程师系列之一,主要讲解IT技术中最关键、最基本的调制解调技术,内容深入浅出,通
高级数据结构 本书特色 《高级数据结构》在基本数据结构的基础上,围绕一些常用的高级数据结构,结合大量实战例题,深入分析“数据结构是如何服务于算法的”。内容包括:...
《中国哲学创新方法论研究》内容简介:中国哲学学科自20世纪初依西方哲学范式建成以来,始终面临着方法论的困境,无论是在概念创造
《iOS 8开发指南》内容简介:苹果公司的iOS系统从诞生之日起到现在,在短短几年时间内,凭借内置有iOS系统的iPhone和iPad的很好的用
《古画新品录》内容简介:《古画新品录:一部眼睛的历史》是艺术史学者黄小峰对中国古画的品读。作者选取了流传于世的35件国画作品
折线模糊神经网络与模糊系统逼近 本书特色 本书主要分两个方面进行阐述:一方面,基于折线模糊数的算术运算对一类新型的折线模糊神经网络进行建模和性能分析,并讨论该网...
《景观设计学(中文版)》内容简介:景观设计学的实践塑造了人类的日常生活和工作场所,它深受现代主义、生态科学和艺术的影响,不
《典型半导体团簇及组装材料的结构和电子特性》内容简介:典型半导体团簇及其团簇组装材料的结构及其电子性质的研究是当前团簇科学
《跟实战专家学做流程管理》内容简介:企业的使命是为顾客创造价值,为顾客创造价值的是流程,而不是哪个部门。本书作者在15年的管
Theexplosivegrowthofe-commerceandonlineenvironmentshasmadetheissueofinformations...
《曾国藩家书》内容简介:本书辑录了曾国藩在清道光30年至同治10年前后达30年的翰苑和从武生涯的书信一百六十余篇。家书涉及的内容
《历史的面孔》内容简介:中国近代历史是一段苦难史,也是一段中国人民不断探索的历史。“求新求变”贯穿着整个时空,这里面涌现了
《爱的24则运算》内容简介:曾经做我最爱的人/你是否觉得荣耀光彩 这是一场无论如何都会结束的爱情 你是那种无论如何都应该跟你爱
计算机科学哲学研究-认知.计算与目的性的哲学思考 本书特色 《计算机科学哲学研究:认知、计算与目的性的哲学思考》:国家社科基金后期资助项目。计算机科学哲学研究-...
宽带综合业务数字网是目前国际、国内通信和信息领域的热门话题,是建立信息高速公路的基础。现在的综合业务数字网(ISDN,仅为64