抄袭检测研究-网络科技-文化科教-太极之巅书单号

书刊介绍

抄袭检测研究内容简介

本专著对抄袭检测，尤其是高模糊抄袭检测，开展深入的研究。以大幅提高抄袭检测系统性能为目标，提出了基于统计机器学习方法解决抄袭检测问题的方法，探索了抄袭检测的语料库构建、web环境下的抄袭源检索和基于语义的高模糊抄袭检测的问题、方法、架构和模型。具体内容包括：1、综述了抄袭检测的概念、类型和框架；2、提出了基于自然标注的抄袭语料构建方法，解决了高质量、反映真实抄袭情况的抄袭语料匮乏问题；3、提出了基于排序学习的源检索查询生成模型和基于检索结果聚合性的源检索过滤模型，解决了以互联网为抄袭资源的抄袭源检索问题；4、提出了句法和语义交互的文本深度释义匹配模型和基于序列标注的文本对齐模型，解决了高模糊抄袭的检测问题。

抄袭检测研究本书特色

《抄袭检测研究》以文本的抄袭检测为研究对象，探索了抄袭检测的语料库构建、Web环境下的抄袭源检索和高模糊抄袭检测的文本对齐的问题、数据、架构和模型。《抄袭检测研究》共9章，第1～3章介绍了抄袭检测的概念、类型和框架，综述了抄袭检测的方法；第4章介绍了现有抄袭语料构建方法，提出了基于自然标注的抄袭语料构建方法；第5和第6章对抄袭源检索开展研究，描述了基于排序学习的源检索查询生成模型和关注检索结果聚合性的源检索过滤模型；第7～9章，对抄袭检测的文本对齐开展研究，提出了基于排序学习的抄袭文本匹配模型、句法和语义交互的释义文本深度匹配模型以及基于序列标注的文本对齐模型。

抄袭检测研究目录

目录
前言
第1章绪论 1
1.1 研究背景及意义 1
1.2 抄袭检测的研究现状及发展趋势 2
1.2.1 抄袭检测任务简介 2
1.2.2 抄袭语料构建 3
1.2.3 源检索的查询生成 5
1.2.4 源检索的检索结果过滤 6
1.2.5 释义抄袭文本匹配 7
1.2.6 抄袭片段对齐 10
1.3 研究的主要目标、内容和结构 12
参考文献 14
第2章抄袭检测的概念、类型和框架 20
2.1 引言 20
2.2 文本复用的概念和方式 20
2.2.1 文本复用的概念 20
2.2.2 文本复用的方式 21
2.3 抄袭的概念和历史 22
2.3.1 抄袭的概念 22
2.3.2 抄袭的历史 23
2.4 抄袭的类型 24
2.5 抄袭检测的框架 26
2.5.1 外部抄袭检测的一般检索过程 27
2.5.2 抄袭源检索的过程框架 27
2.5.3 文本对齐的过程框架 29
2.5.4 内部抄袭检测的过程框架 29
2.5.5 跨语言抄袭检测的过程框架 30
2.6 本章小结 32
参考文献 32
第3章抄袭检测的方法综述 35
3.1 引言 35
3.2 基于指纹的抄袭检测方法 35
3.2.1 指纹的生成 36
3.2.2 指纹的匹配 40
3.3 基于词袋模型的抄袭检测方法 41
3.4 基于TFIDF模型的抄袭检测方法 46
3.5 基于n-gram模型的抄袭检测方法 48
3.6 基于句法的抄袭检测方法 52
3.7 基于语言连续表示的抄袭检测方法 53
3.7.1 基于跨语言明确语义分析的跨语言抄袭检测方法 53
3.7.2 基于跨语言潜在语义分析的跨语言抄袭检测方法 54
3.8 本章小结 55
参考文献 55
第4章基于自然标注的抄袭语料构建方法 60
4.1 引言 60
4.2 现有抄袭语料构建方法和问题分析 60
4.2.1 Webis系列抄袭检测语料库 61
4.2.2 CPSA语料库 68
4.2.3 METER语料库 69
4.2.4 其他语料 71
4.2.5 抄袭检测语料库构建总结 77
4.3 基于自然标注的抄袭语料构建 80
4.3.1 自然标注的基本思想 80
4.3.2 基于自然标注构建抄袭语料的可行性 80
4.3.3 抄袭语料构建算法 82
4.3.4 抄袭文本对齐的评价标准 87
4.4 语料质量分析 89
4.4.1 数据的收集和参数的设置 90
4.4.2 数据集的统计信息 90
4.4.3 数据集质量的评价 91
4.5 本章小结 93
参考文献 93
第5章基于排序学习的源检索查询生成模型 98
5.1 引言 98
5.2 查询对源检索性能影响分析 99
5.3 基于排序学习的源检索查询生成框架 101
5.4 构建训练数据 102
5.5 构建查询生成模型 104
5.5.1 排序备选查询的学习算法 105
5.5.2 排序模型的特征 107
5.6 实验与分析 109
5.6.1 数据集 109
5.6.2 评价指标 109
5.6.3 实验设置 111
5.6.4 实验结果与分析 113
5.6.5 实验结果的进一步讨论 118
5.7 本章小结 119
参考文献 120
第6章关注检索结果聚合性的源检索过滤模型 122
6.1 引言 122
6.2 源检索过滤问题分析 123
6.2.1 源检索中分类模型和排序模型的判别能力分析 123
6.2.2 源检索结果的聚合性分析 124
6.3 基于聚合性的源检索过滤 126
6.3.1 源检索过滤的排序学习框架 126
6.3.2 基于逻辑回归的排序学习算法 127
6.3.3 关注检索结果聚合性的源检索过滤模型 129
6.4 实验与分析 131
6.4.1 数据集 131
6.4.2 评价指标 131
6.4.3 实验设置 132
6.4.4 实验结果与分析 136
6.5 本章小结 141
参考文献 142
第7章基于排序学习的抄袭文本匹配模型 143
7.1 引言 143
7.2 抄袭文本匹配的问题分析 144
7.3 基于排序学习的抄袭检测文本匹配 145
7.3.1 抄袭文本匹配模型 145
7.3.2 抄袭文本匹配的排序学习算法 148
7.3.3 基于METEOR评价指标的特征 149
7.4 实验与分析 150
7.4.1 数据集 151
7.4.2 评价指标 151
7.4.3 实验设置 152
7.4.4 实验结果与分析 153
7.5 本章小结 163
参考文献 164
第8章句法和语义交互的释义文本深度匹配模型 166
8.1 引言 166
8.2 释义文本匹配分析 167
8.3 句法和语义交互的释义文本深度匹配 171
8.3.1 释义文本深度匹配模型概述 171
8.3.2 基于张量交互句法和语义的句子表达 172
8.3.3 基于卷积神经网的释义句匹配 173
8.3.4 融合词汇特征的释义文本深度匹配模型 176
8.4 实验与分析 177
8.4.1 数据集 177
8.4.2 评价指标 180
8.4.3 实验设置 181
8.4.4 实验结果与分析 184
8.5 本章小结 188
参考文献 188
第9章基于序列标注的文本对齐模型 192
9.1 引言 192
9.2 抄袭文本对齐问题分析 193
9.3 基于序列标注的文本对齐 196
9.3.1 文本对齐的机器学习框架 196
9.3.2 模型选择 197
9.3.3 基于条件随机场的抄袭文本对齐模型 199
9.4 实验与分析 203
9.4.1 数据集 203
9.4.2 实验设置 204
9.4.3 实验结果与分析 205
9.5 本章小结 209
参考文献 209
结论 212
彩图