《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
《聚势》内容简介:本书首先从理论上分析移动互联网时代的渠道发展趋势,提出渠道运营管理“442”模型,解析通信业渠道发展历史和发
《美国视觉设计学院用书——平面设计中的绘画、构成、色彩与空间样式》是一本对平面设计师实用绘画技法全解析的图书。绘画是设计
《快学熟用D3》内容简介:本书所讲的D3.js其实是数据可视化这一门类的库,市面上讲解它的书籍早已汗牛充栋。这本书虽然名字是“D3
TheauthorsofThoughtfulInteractionDesigngobeyondtheusualtechnicalconcernsofusabil...
WPS之光:全能一本通Office办公三合一 本书特色 适读人群 :职场办公人员、金山办公CEO & 高级VP官方推荐,国人办公就用国民软件WPS Office...
EDIUS视音频制作标准教程-(第2版)-(含2DVD价格) 本书特色 本书全面讲解edius*新核心技术,精选多个行业实用案例,帮助读者在*短的时间内从“零基...
《Excel函数与公式标准教程:实战微课版》内容简介:《Excel函数与公式标准教程(实战微课版)》以微型实用办公案例的形式,对Exce
计算理论与符号逻辑 内容简介 《计算理论与符号逻辑》对计算理论和数理逻辑中一组*为基本的问题和重要概念进行详细介绍.以boolos等的经典教材computabi...
《设计与视知觉》是由中国建筑工业出版社出版的。目录 序前言绪论:设计与视知觉1明暗从涂鸦到设计2形状画面中正负形状的互动3体
《用地图看懂世界格局》内容简介:美国大选、英国脱欧、俄罗斯出兵叙利亚、在韩国建立萨德反导……所有这些问题,如果只通过新闻报
巴黎创意人的家是什么样的呢?来,一起到他们家里去看一下吧!他们钟爱手工原创,珍惜旧物,喜欢到跳蚤市场和古董市场寻找自己喜
《C++程序设计(第2版)》内容简介:本书是为已有C语言程序设计基础、想进一步学习C++面向对象程序设计的读者编写的。书中用通俗易
《看图学八卦掌(视频学习版)》内容简介:本书首先对八卦掌的由来、特点、练习要点和动作进行了介绍,接着对包括掌法、步法、桩功
《纠错编码的艺术(第2版)》讲论了所有的关键主题,包括Reed-Solomon码、Viterbi译码、软输出译码算法、MAP、log-MAP和MAX-log-M...
《机甲素描技法》内容简介:本书内容详尽,包括机械零件的构造和特征、绘制零件的要点及阴影表现手法、零件组合的技巧、机甲的身体
《和田玉收藏投资购买宝典》内容简介:《和田玉收藏投资购买宝典》融知识性、实用性、文化性于一体,对和田玉的起源和发展、和田玉
《88个一学就会的旅途小魔术》内容简介:魔术师制造奇迹的艺术,是大众十分喜爱的艺术。根据魔术表演的场景,《88个一学就会的旅途
《电子商务网页设计》内容简介:本书针对中等职业学校电子商务专业和计算机类专业的网页设计与制作的教材或参考书,共分十二个项目
《思维导图:文言文满分学习法》内容简介:本书运用思维导图这种可视化的思维技术,运用图文并茂的形式和严谨的逻辑结构将中学阶段
翻开此书的你,也许是JavaScript的崇拜者,正想摩拳擦掌地想尝试下学一学这一精巧的语言;也许是80后,90后的程序员或者前端架构