本书源自作者在斯坦福大学教授多年的“web挖掘”课程材料,主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前web应用的许多重要话题。主要内容包括:
□ 分布式文件系统以及map-reduce工具;
□ 相似性搜索;
□ 数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
□ 搜索引擎技术,如谷歌的pagerank;
□ 频繁项集挖掘;
□ 大规模高维数据集的聚类算法;
□ web应用中的关键问题:广告管理和推荐系统。
本书配套网http://infolab.stanford.edu/~ullman/mmds.html上提供英文版初稿以及一些课件和项目作业。
大数据时代的及时雨全球著名数据库技术专家*新力作理论与实际算法实现并重
AnandRajaraman数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功:1996年创办Junglee公司,两年后该公司被亚马逊以2.5亿美元收购,Rajaraman被聘为亚马逊技术总监,推动亚马逊从一个零售商转型为零售平台;2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司2011年被沃尔玛集团收购。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。博客地址http://anand.typepad.com/datawocky/。
JeffreyDavidUllman美国国家工程院院士,计算机科学家,斯坦福大学教授。Ullman早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。他是ACM会员,曾获SIGMOD贡献奖、Knuth奖等多项科研大奖;他是“龙书”《编译原理》、数据库领域权威指南《数据库系统实现》的合著者;麾下多名学生成为了数据库领域的专家,其中最有名的当属谷歌创始人SergeyBrin;本书第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。
Dreamweaver8·Flash8·Fireworks8网站开发自学导航(含1CD) 本书特色 本书共包含20章,划分为3篇。其中:前15章为基础篇,讲解了...
Pro/ENGINEER Wildfire3.0工程图制作1CD 内容简介 本书在循序渐进的教学中,通过精选的案例讲解了Pro/ENGINEER Wildfir...
《iOS编程》荣获Jolt生产力大奖。第4版更新了iOS7和Xcode5的内容。全书涵盖了开发iOS应用的方方面面。从Objective-C基础知识到新
KH10067 Photoshop CS5影像圣经 本书特色 本书编写的目的,是为读者解析经典软件photoshop的使用方法,提供操作上的重点和难点信息,实战...
《林语堂英文译创研究》内容简介:本书首先以译创者主体性研究为起点,将林语堂界定为译创者,分析其在双重身份作用之下的译创动机
日本設計大師原研哉為其設計生涯的諸多作品,以淺顯易懂的精鍊語言,做全面性解說。近年來的新作,如「HAPTIC」展、北京奧運象徵
五笔字型即时查(第2版) 内容简介 本字典以*新版《现代汉语词典》为准,列出了200多个汉字常用的86版五笔字型输入法的字根及编码;同时列出了98版五笔字型编码...
《黑洞旅行指南》内容简介:这本引人入胜的科普小书解读了当代科学里极具挑战性的现象—黑洞,它也是我们理解整个宇宙的方向标。在
《人人都能学会的刷屏文案写作技巧》内容简介:“后来的我们,为了谁四处迁徙,为了谁回归故里?”真奇怪,这些字每一个都认识,每
《恐龙世界探险日记(神奇科学探险之旅)》内容简介:《恐龙世界探险日记》是“神奇科学探险之旅”丛书之一,本书选取了恐龙大家族
《忽必烈》内容简介:忽必烈,是中国和蒙古族历史上的重要人物。虽灭亡南宋,一统全国,行用汉法,创建元朝,却又多疑猜忌,贪财谥
2015,中国以“一带一路”为纽带,选择和平与共享的方式,重新缔造与世界的关系;抗战胜利日大阅兵,对应的是70年前中国以血肉之
快学快用OFFICE2007电脑办公应用百练成精CD 内容简介 本书以实例的方式讲解了office 2007软件在办公方面的应用,可帮助初学者从入门上升到提高,...
《英语应该这样学!》内容简介:本书从英语学习的五大板块——发音、单词、语法、语感、习题——入手,逐一分析了中国英语学习者(
《常春藤英语 四级·下》内容简介:“常春藤英语系列”选材以英国、美国、加拿大和澳大利亚等主流英语国家的经典语文素材为主,内容
《JavaScript框架设计(第2版)》内容简介:本书全面讲解了JavaScript框架设计及相关的知识,主要内容包括种子模块、语言模块、浏览
《奔跑吧Linux内核(入门篇)》内容简介:本书是一本介绍Linux内核实践的入门书,基于Linux4.0内核,重点讲解Linux内核的理论和实验
Nginx(“enginex”)是俄罗斯人IgorSysoev编写的一款高性能HTTP和反向代理服务器。Nginx选择了epoll和kqueue作为网络I/O模...
《方汉奇文集(增订版)》内容简介:《方汉奇文集》(增订版)收录了方先生半个多世纪的研究成果和心得,史料丰富、考据严谨、笔法
《守望卡瓦格博》内容简介:2006年,新浪博客开通的第二年,杨旭东注册了“留给自己一份柔软的心情”的个人旅行博客。十余年来,一