本书源自作者在斯坦福大学教授多年的“web挖掘”课程材料,主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前web应用的许多重要话题。主要内容包括:
□ 分布式文件系统以及map-reduce工具;
□ 相似性搜索;
□ 数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
□ 搜索引擎技术,如谷歌的pagerank;
□ 频繁项集挖掘;
□ 大规模高维数据集的聚类算法;
□ web应用中的关键问题:广告管理和推荐系统。
本书配套网http://infolab.stanford.edu/~ullman/mmds.html上提供英文版初稿以及一些课件和项目作业。
大数据时代的及时雨全球著名数据库技术专家*新力作理论与实际算法实现并重
AnandRajaraman数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman职业生涯非常成功:1996年创办Junglee公司,两年后该公司被亚马逊以2.5亿美元收购,Rajaraman被聘为亚马逊技术总监,推动亚马逊从一个零售商转型为零售平台;2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司2011年被沃尔玛集团收购。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。博客地址http://anand.typepad.com/datawocky/。
JeffreyDavidUllman美国国家工程院院士,计算机科学家,斯坦福大学教授。Ullman早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。他是ACM会员,曾获SIGMOD贡献奖、Knuth奖等多项科研大奖;他是“龙书”《编译原理》、数据库领域权威指南《数据库系统实现》的合著者;麾下多名学生成为了数据库领域的专家,其中最有名的当属谷歌创始人SergeyBrin;本书第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。
SQL Server 从入门到精通(配光盘)(软件开发视频大讲堂) 本书特色 明日科技编著的《SQL Server从入门到精通(附光盘SQL Server200...
《温暖的麦穗》内容简介:本书是国务院新闻办公室三局局长张雁彬的随笔散文集。书中收录了作者自大学毕业后在生活、工作中写下的一
《走出教育焦虑》内容简介:本书是一部通过引用、分析传统文化理念与知识,解决当下孩子教育问题的传统文化教育应用类读本。随着中
LearnhowtobemoreproductivewithScala,anewmulti-paradigmlanguagefortheJavaVirtualM...
谭浩强教授,我国著名计算机教育专家。1934年生,广东台山人。1985年清华大学自动控制系毕业。学生时代曾担任清华大学学生会主席
《国外电子与通信教材系列·数字信号处理(第4版)》全面系统地阐述了数字信号处理的基础知识,其中前10章讲述了确定性数字信号处理
《中国塑料机械工业年鉴2020》内容简介:本书设置了综述、专文、行业与地区发展概况、市场专题、企业概况、产品项目与技术、标准与
单片机原理及接口技术(2版) 内容简介 书中系统地介绍了80c51系列单片机的原理及接口技术,较好地体现了应用型人才的培养要求,其特点为:着力片上资源、强化编程...
开源软件是当今计算机工业界最具活力的领域,例如Linux这个公开了源代码的UNIX操作系统在服务器市场上已经与许多大公司的产品分庭
这本乔布斯唯一授权的官方传记,在2011年上半年由美国出版商西蒙舒斯特对外发布出版消息以来,备受全球媒体和业界瞩目,这本书的
互联网的未来-光荣.毁灭与救赎的预言 目录 译者序引言**部分可繁殖网络的兴起和停滞**章盒子的战争第二章网络的战争第三章网络安全与自我繁殖的两难第二部分停滞之...
计算机基础及MS Office应用-全国计算机等级考试一级教程-(2015年版) 本书特色 本书是根据教育部考试中心制定的《全国计算机等级一级ms office...
网页制作三剑客标准教程 内容简介 本书系统地介绍了由著名的多媒体软件公司Macromedia公司出品的被人们称为“网页制作三剑客”的网页制作系列软件Dreamw...
《中国有文化》内容简介:本书意在呈现南怀瑾先生对于中国文化总体脉络、特色和价值的概述。南怀瑾先生对于中国历史文化有很多独到
《我们的历史:三国两晋南北朝》内容简介:本书家庭是社会的基本细胞,是孩子人生的学校;一个家庭所承袭的优良家风,不仅是个人的
《Essential C++中文版》内容简介:本书以四个面向来表现C++的本质:procedural(面向过程的)、generic(泛型的)、object-ba...
《大数据架构和算法实现之路》内容简介:本书介绍了一些主流技术在商业项目中的应用,包括机器学习中的分类、聚类和线性回归,搜索
本书从为什么学习程序设计语言入手,深入细致地讲解了命令式语言的主要结构及其设计与实现,内容涉及变量、数据类型、表达式和赋
《因为懂得 所以慈悲》内容简介:她是中国文学史上的传奇,她是民国世界的临水照花人。她终其一生,横空出世的来,旁若无人的活,听
AndyPratt具有12年以上建立得獎的互動媒體經驗。曾協助傳遞多家大型世界知名品牌的願景與策略,包括史密森博物館、芝麻街工作室、