《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
《用“芯”探核:龙芯派开发实战》内容简介:这是一本带领读者快速熟悉、掌握龙芯派开发的专著。本书基于龙芯派二代开发板,首先由
《野哭:弘光列传》内容简介:作者对短命仅一载的弘光朝感到不能放下,而想把它重新唤回于人们记忆,于是,钩故索旧,大书特书。《
C++程序设计-(计算机及应用专业)(独立本科段)(2008年版)(附:C++程序设计自学考试大纲) 内容简介 作为我国高等教育组成部分的自学考试,其职责就是在...
《清华大学电子与信息技术系列教材:现代通信原理》以现代通信系统为背景,系统、深入地介绍现代通信技术的基本原理,并以数字通信
《汽车发动机试验学教程》是对现代汽车发动机试验进行全面系统论述的专业教科书。书中首先论述了进行汽车发动机试验必备的试验台
《公司法学(下)》内容简介:本书通过浅显的文字说明,配以具体案例,对董事的注意义务和忠诚义务、派生诉讼、征集投票代理权等国
数据库原理应用与实践SQL Server 2012 本书特色 《数据库原理应用与实践(SQL Server2012)》由贾铁军、甘泉主编,本书主要突出“实用、特...
《杀馋》内容简介:本书收录了周墙作为一个好吃佬创作的27篇生动风趣的美食散文,以食物为核心串联起数十年人生岁月,组成一部怀旧
本书用Python语言来讲解算法的分析和设计。本书主要关注经典的算法,但同时会为读者理解基本算法问题和解决问题打下很好的基础。
这是一本为网页设计师量身定制的配色方案专业书籍。全书共分七个部分,分别结合丰富的实例讲述了配色基础知识、色相和色调(Hue&
数学之美-第二版 本书特色 几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。 正式出版前,吴军博士几乎把所有文章都重写了一遍...
本书是一本完整的、基于最佳实践的JavaScript敏捷测试指南,同时又有着测试驱动开发方法(TDD)所带来的质量保证。领先一步的Jav
《微积分的人生哲学》内容简介:这是国际知名数学家、《微积分的力量》作者史蒂夫·斯托加茨献给高中数学老师的深情力作。对他们师
网页制作三剑客标准教程 内容简介 本书系统地介绍了由著名的多媒体软件公司Macromedia公司出品的被人们称为“网页制作三剑客”的网页制作系列软件Dreamw...
《随机信号分析》主要阐述了概率论与随机信号的基础理论和分析方法。全书共分7章,包括概率论,随机信号的时域、频域分析,随机信
学习、构思、创造、让色彩呈现生命,传达一种体验,这便这部书的一个概况。这本书恰恰处在两个世纪历史的一个转折阶段。在这个阶
《西南联大历史通识课》内容简介:★西南联大博物馆官方认证版 ★1937—2022,西南联大建校85周年纪念 ★大师摇篮,世界教育史上的
《乾坤衍》内容简介:熊十力哲学三部曲:《新唯识论》《体用论》《乾坤衍》。从中可以清晰看到熊十力思想的出发点和演变轨迹。熊十
《应用组合数学(第5版)》讲解了离散数学问题求解中组合推理和组合建模的方法、思维和运用。主要涉及图论基本概念、覆盖和图着色、
笔记本电脑完全宝典 本书特色 本书采用环境教学法,版式新颖、美观实用,全程图解、快速上手,双色印刷、轻松阅读,书盘结合、互动教学。在内容的安排上,由浅入深、较有...