《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
《服务设计:用极致体验赢得用户追随》内容简介:服务设计不只是设计服务,更是设计与服务相关的整个商业系统。服务设计包括表层的
《不头疼的故事作文课(典藏版):怪小孩》内容简介:《不头疼的故事作文课》系列是根据作者的一些亲身经历的故事为基础,改编成为
本书作者多年致力于艺术、设计的教学,并在自学软件的过程中获得启示,每个单元均以美学角色切入,再引导实际操作,通过作品来呈
《醉鲨》内容简介:★“荣获挪威最重要的文学奖——伯瑞格文学奖 (The Brage Prize),至今在挪威畅销不衰。★一部精彩绝伦的北欧探
JavaScript曾是“世界上最被误解的语言”,因为它担负太多的特性,包括糟糕的交互和失败的设计,但随着Ajax的到来,JavaScript“
《Java EE核心框架实战》内容简介:本书旨在提高读者的学习效率,增强其项目实战能力。为此,本书摒弃了软件公司中不常用或不实用的
《OpenGL编程指南(原书第7版)》对OpenGL以及OpenGL实用函数库进行了全面而又权威的介绍,素有“OpenGL红宝书”之誉。《OpenGL编程
《天文观测完全手册》内容简介:《天文观测完全手册》针对天文爱好者,以天文观测为主线,兼顾天文摄影,从我们最熟悉的太阳系讲起
《安史之乱(修订版)》内容简介:开元盛世末期,长安城的大街小巷、酒肆茶楼,依然是人来人往,你唱我和,一片繁华景象,几许欢乐
《从1到N:企业数字化生存指南》内容简介:随着新技术的发展成熟,所有的行业都会受到数字化的冲击,区别仅是程度和时间而已。在一
C#课程设计案例精编 内容简介 本书从实际应用出发,详细介绍了使用C*开发.NET应用程序的方法。书中的9 个案例由浅入深、从简单到复杂地介绍了使用C*开发程序...
《儒匠——程泰宁传》内容简介:他痴迷武侠小说,却误打误撞地闯入建筑殿堂;他是第一位也是至今唯一一位被国外知名出版机构收入世
LATEX 2e完全学习手册-(第二版)-附光盘1张 本书特色 latex2e,简称latex,是一种专业的高品质文稿排版系统,目前已成为国际学术出版界广泛使用...
《设计心理学》共有六章,第一章“设计心理学概述”,梳理了设计心理学的历史和现状,着重介绍近年来设计-理最活跃的几个领域——
IfyourenewtotheAndroidmobileoperatingsystem,LearningAndroidistheperfectwaytomast...
《母婴健康照护棘手问题解答:预防出生缺陷 孕育健康宝宝》内容简介:随着预产期临近,准妈妈们最担心的是能否顺利生下宝宝,有什么
周品编著的《MATLAB神经网络设计与应用(最新版)》以最新版MATLABR2012a为平台编写,结合高等学校教学对MATLAB及其在神经网络的应
本书介绍了Python应用在各个领域中的一些使用技巧和方法,从最基本的字符、文件序列、字典和排序,到进阶的面向对象编程、数据库
《XilinxISEDesignSuite10.xFPGA开发指南:逻辑设计篇》以XilinxFPGA逻辑开发流程为主线,以浅入深出、图文并茂的方式,全面、详细
《知书达礼》内容简介:本书为《中华传统价值观丛书》中的一种,着眼于知书达礼这一重要的价值取向,编选历代关于读书治学、修身复