《深入搜索引擎:海量信息的压缩、索引和查询》是斯坦福大学信息检索和挖掘课程的首选教材之一,并已成为全球主要大学信息检索的主要教材。《深入搜索引擎:海量信息的压缩、索引和查询》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《深入搜索引擎:海量信息的压缩、索引和查询》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业高年级本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
第1章 概览
1.1 文档数据库(DOCUMENT DATABASES)
1.2 压缩(COMPRESSION)
1.3 索引(INDEXES)
1.4 文档索引
1.5 MG海量文档管理系统
1.6 进一步阅读
第2章 文本压缩
2.1 模型
2.2 自适应模型
2.3 哈夫曼编码
范式哈夫曼编码
计算哈夫曼编码长度
总结
2.4 算术编码
算术编码是如何工作的
实现算术编码
保存累积计数
2.5 符号模型
部分匹配预测
块排序压缩
动态马尔科夫压缩
基于单字的压缩
2.6 字典模型
自适应字典编码器的LZ77系列
LZ77的Gzip变体
自适应字典编码器的LZ78系列
LZ78的LZW变体
2.7 同步
创造同步点
自同步编码
2.8 性能比较
压缩性能
压缩速度
其他性能方面的考虑
2.9 进一步阅读
第3章 索引
3.1 样本文档集合
3.2 倒排文件索引
3.3 压缩倒排文件
无参模型(Nonparameterized models)
全局贝努里模型
全局观测频率模型(Global observed frequency model)
局部贝努里模型(Local Bernoulli model)
有偏贝努里模型(Skewed Bernoulli model)
局部双曲模型(Local hyperbolic model)
局部观测频率模型(Local observed frequency model)
上下文相关压缩(Context-sensitive compression)
3.4 索引压缩方法的效果
3.5 签名文件和位图
签名文件
位片签名文件(Bitsliced signature files)
签名文件分析
位图
签名文件和位图的压缩
3.6 索引方法的比较
3.7 大小写折叠、词根化和停用词
大小写折叠
词根化
影响索引长度的因素
停用词(stop word)
3.8 进一步阅读
第4章 查询
4.1 访问字典的方法
访问数据结构
前端编码(Front coding)
最小完美哈希函数
完美哈希函数的设计
基于磁盘的字典存储
4.2 部分指定的查询术语
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循环字典(Rotated lexicon)
4.3 布尔查询(BOOLEAN QUERY)
合取查询(conjunctive query)
术语处理顺序
随机访问和快速查找
分块倒排索引
非合取查询(Nonconjunctive query)
4.4 信息检索和排名
坐标匹配(Coordinate matching)
内积相似度
向量空间模型
4.5 检索效果评价
召回率和精确率
召回率-精确率曲线
TREC项目 208
万维网搜索(World Wide Web Searching)
其他有效性评价方法
4.6 余弦法实现
文档内频率
余弦值的计算方法
文档权重所需的内存
累加器内存
快速查询处理
按频率排序的索引
排序
4.7 交互式检索
相关性反馈
概率模型
4.8 分布式检索
4.9 进一步阅读
第5章 索引构造
第6章 图像压缩
第7章 文本图像
第8章 混合图文
第9章 系统实现
第10章 信息爆炸
附录A MG系统指南
附录B 新西兰图书馆
《黄河三角洲高效生态经济区发展报告(2014)》内容简介:本书是对黄河三角洲地区进行全景式分析的研究报告。总报告对黄河三角洲地
《联网力:传统行业互联网化转型的原动力》内容简介:本书主要讲述了互联网浪潮及其带来的新思维与新理念,并归纳总结了新时代下企
《世界汉学(第10卷)》内容简介:《世界汉学(第10卷)》中国人民大学出版社出版。本书包括了:汉学与汉学家在德国——过时的概念?
《初中现代文阅读内容把握与方法突破》内容简介:本书以现行课程标准为研究抓手,以整体序列设计课程标准教学要求,明确具体的教学
TheDeitelsgroundbreakingHowtoProgramseriesoffersunparalleledbreadthanddepthofpro...
《人的局限性:约翰生作品集》内容简介:本书为英国著名作家、批评家塞缪尔·约翰生的作品集,以牛津《约翰生重要作品选》、哈佛《
在《SOA&Web2.0:新商业语言》中,SandyCalter示范了将企业解构为“组件化”业务模式的方法,然后用相互连接的、可重复的并且能快
《小程序,巧应用:微信小程序开发实战》内容简介:系统全面地讲解微信小程序的开发技术。开篇创建一个小程序项目并解析体验,介绍
计算机密码应用基础 内容简介 本书是在四川大学密码学公共选修课所用的讲义基础上编写而形成的。内容涉及密码学中几大“核心”领域,包括分组密码、香农理论、序列密码、...
《图解博弈心理学·微表情心理学》内容简介:本书主要针对各行各业的精英人士以及想学习微表情心理学知识的人员而编写。全书以分析
《机器学习观止:核心原理与实践》内容简介:本书在写作伊始,就把读者设想为一位虽然没有任何AI基础,但对技术本身抱有浓厚兴趣、
单片机初级教程 本书特色 《单片机初级教程:单片机基础》在各章中对关键性内容都结合实例予以说明,同时还安排了大量思考题和习题,以利于读者对所述内容的理解、掌握、...
《刀与星辰》内容简介:徐皓峰影评集。书中从颇受瞩目的大制作《卧虎藏龙》《赤壁》《十面埋伏》,到独具风格的《放·逐》《春夏秋
《极简办公》内容简介:本书主要面向职场新人,详细讲解Word的使用技巧,并提供配套的视频讲解,帮助职场新人快速掌握工作中所需要
AhoandUllmanhavecreatedaCversionoftheirgroundbreakingtext.Asinthattext,thisbookc...
《新手学漫画教程:素描综合技法从入门到精通》内容简介:MiuMiu著的这本《素描综合技法从入门到精通》是针对初学者精心编制漫画素
在线阅读本书《CrossingtheChasm:MarketingandSellingDisrupti》:Mooreprovidesaninvaluablese...
《坚持把立德树人作为根本任务》内容简介:该书全面梳理了党的十八大以来习近平总书记关于立德树人的重要论述,深刻阐释了立德树人
《家校合作共育:中国家庭教育的新趋势》内容简介:提升一个民族的家庭教育水平,不仅需要把握全国家庭教育的现状和特点,以判断其
《斯坦福社会创新评论09》内容简介:区块链、人工智能、3D打印等在给社会创新领域带来新的发展,是否也触发了科技的“黑暗面”?技