作者:《Dataintensive Text Processing With Mapreduce》书籍
出版社:Morgan and Claypool Publishers
出版年:2010-4-30
评分:8.9
ISBN:9781608453429
所属分类:网络科技
Our world is being revolutionized by data-driven methods: access to large amounts of data has generated new insights and opened exciting new opportunities in commerce, science, and computing applications. Processing the enormous quantities of data necessary for these advances requires large clusters, making distributed computing paradigms more crucial than ever. MapReduce is a programming model for expressing distributed computations on massive datasets and an execution framework for large-scale data processing on clusters of commodity servers. The programming model provides an easy-to-understand abstraction for designing scalable algorithms, while the execution framework transparently handles many system-level details, ranging from scheduling to synchronization to fault tolerance. This book focuses on MapReduce algorithm design, with an emphasis on text processing algorithms common in natural language processing, information retrieval, and machine learning. We introduce the notion of MapReduce design patterns, which represent general reusable solutions to commonly occurring problems across a variety of problem domains. This book not only intends to help the reader "think in MapReduce", but also discusses limitations of the programming model as well.
1.Introduction
2.MapReduce Basics
3.MapReduce Algorithm Design
4. Inverted Indexing for Text Retrieval
5.Graph Algorithms
6.EM Algorithms for Text Processing
7.Closing Remarks
CAD/CAM专业英语 本书特色 本书详细地介绍了机械类计算机辅助设计专业学生应掌握的专业术语英语表示方法。内容包括金属材料及热处理、锻压、焊接、金属切削机床、...
《戊戌变法的另面:“张之洞档案”阅读笔记》内容简介:作者在“张之洞档案”的系统阅读中突出地感受到,这批史料给今人提供了观察
《每晚睡前原谅所有的人和事》内容简介:每晚入睡前,想着一天的劳累和辛苦,想着过往几十年的辛酸与不易,想着那些我们曾经错过和
文本大数据情感分析 本书特色 借助人工智能相关技术,帮助人们方便、高效地利用网络大数据信息,已成为当前IT业的研究热点之一。本书介绍社交网络等海量异构信息采集算...
《活着,就要无声炸裂》内容简介:这是一本让年轻人小宇宙爆发的力量之书。人气博主南顾用自己的亲身经历写下颠沛流离的青春、肆意
HowtoBreakSoftwareisadeparturefromconventionaltestinginwhichtestersprepareawritt...
精通Oracle SQL-(第2版) 本书特色 《精通oracle sql(第2版)》语言精炼、风趣,所涵盖的内容涉及sql核心、sql执行、分析函数、联结、测...
手感設計之所以會成為日本設計的特色,就在於日本人將設計不只是視之為功能的詮釋品而已。設計代表了文化、便利生活的器具、成為
本书将再造从地球上消失和绝迹的动物!恐龙-洪荒年代的神话;麋鹿-漂泊的中国精灵;始祖鸟-美化了的爬行动物;欧洲野马-欧罗
《山东半岛蓝色经济区发展报告(2014)》内容简介:本书主要内容分为年度报告和专题报告。年度报告包括三个:一是山东半岛蓝色经济
机器学习及其应用2011 本书特色 《机器学习及其应用2011》由周志华、杨强主编,是清华大学出版社邀请第七届和第八届“机器学习及其应用研讨会”的部分专家将其报...
《刀与星辰》内容简介:徐皓峰影评集。书中从颇受瞩目的大制作《卧虎藏龙》《赤壁》《十面埋伏》,到独具风格的《放·逐》《春夏秋
《中国近代铁路事业管理研究》内容简介:本书是台湾学者张瑞德早年的著作,曾由台北“中研院”近代史研究所于1991年出版,列入该所
智能摘要与深度学习 本书特色 本书从背景、需求入手,以*直接有效的方法切入,讲解如何搭建摘要系统。对摘要领域的算法做深入剖析,并对未来研究趋势做规划和预测。智能...
【本书目录】Introduction7WhyVintage?THeClothes14Greatvintagepieceswornbywomenlikeyou.E...
Tornadoisascalable,non-blockingwebserverandwebapplicationframeworkwritteninPytho...
本书系统地阐释了OFDM技术的基本原理、关键技术及与其他一些技术的结合,重点分析了OFDM技术在无线物理层上的一些关键的问题,并
本书是《俄罗斯航空发动机制造史》丛书的上册,主要讲述第24号工厂的早期发展阶段(1912—1945年)。第一次世界大战后,在这个坚
电脑常见故障排除实用技巧800招-(含1DVD) 本书特色 精选电脑常见故障,提供完美解决方案;涵盖主流软硬件产品,关注新技术的应用;提供有声视频文件,重点、难...
《Python程序设计开发宝典》内容简介:内容与Python第一版本同步。面向Python 3.5.x、Python 3.6.x及更新版本,重点关注内置对象和