本专著对抄袭检测,尤其是高模糊抄袭检测,开展深入的研究。以大幅提高抄袭检测系统性能为目标,提出了基于统计机器学习方法解决抄袭检测问题的方法,探索了抄袭检测的语料库构建、web环境下的抄袭源检索和基于语义的高模糊抄袭检测的问题、方法、架构和模型。具体内容包括:1、综述了抄袭检测的概念、类型和框架;2、提出了基于自然标注的抄袭语料构建方法,解决了高质量、反映真实抄袭情况的抄袭语料匮乏问题;3、提出了基于排序学习的源检索查询生成模型和基于检索结果聚合性的源检索过滤模型,解决了以互联网为抄袭资源的抄袭源检索问题;4、提出了句法和语义交互的文本深度释义匹配模型和基于序列标注的文本对齐模型,解决了高模糊抄袭的检测问题。
《抄袭检测研究》以文本的抄袭检测为研究对象,探索了抄袭检测的语料库构建、Web环境下的抄袭源检索和高模糊抄袭检测的文本对齐的问题、数据、架构和模型。《抄袭检测研究》共9章,第1~3章介绍了抄袭检测的概念、类型和框架,综述了抄袭检测的方法;第4章介绍了现有抄袭语料构建方法,提出了基于自然标注的抄袭语料构建方法;第5和第6章对抄袭源检索开展研究,描述了基于排序学习的源检索查询生成模型和关注检索结果聚合性的源检索过滤模型;第7~9章,对抄袭检测的文本对齐开展研究,提出了基于排序学习的抄袭文本匹配模型、句法和语义交互的释义文本深度匹配模型以及基于序列标注的文本对齐模型。
原田进:1975-1977年就读美国加州旧金山艺术大学设计系1977-198年在美国、欧洲设计公司工作198年返回日本,进入Paos株式会社工作
《Python 3反爬虫原理与绕过实战》内容简介:本书首先介绍了开发环境的配置,接着讨论了Web网站的构成和页面渲染、动态网页和静态网
她生性孤傲,才华横溢,风姿天下无人能及。本是万千宠爱集一身的雨天国公主,众男子借以能够见他一面为荣,然她对他们不屑一顾他
MoreEffectiveC++的重点包括:·经过验证的一些用来改善程序效率的方法,包括尖锐而犀利地检验C++语言特性所带来的时间和空间上的
《数字抑郁时代》内容简介:你不经意间养成的习惯,背后都是高科技的老谋深算 慕尼黑大学心理学教授教你认清套路,看穿隐藏在数字技
《给青年的十二封信(经典译林)》内容简介:朱光潜赠予青年朋友的人生智慧书; 附录朱光潜谈修养、谈文学等多篇精彩文章 本书是美
《C++程序设计教程》是《C++程序设计教程》的第二版。然而从指导思想、内容结构、写作特点等方面,都以全新的面貌呈现于读者。全
李永志管理3000人的客户服务团队,集团级内训师,承担客户运营管理、落实工作,实战经验丰富。从基层的集团客户管理员做起,到VI
机器视觉 本书特色 《机器视觉》从逆问题的角度出发,提出了一整套关于机器视觉的研究方法,其核心是:机器视觉应该基于对成像过程的深刻理解!作为作者在麻省理工学院(...
《数据挖掘(第2版)》较全面系统地介绍了数据挖掘中常用和常见的数据挖掘方法,以及文本与视频数据挖掘方法。《数据挖掘(第2版)》
《企业级大数据项目实战:用户搜索行为分析系统从0到1》内容简介:本书基于真实业务场景,以项目导向为主线,从0到1全面介绍“企业
《淘宝网店深度SEO优化技术揭秘:网店流量高效转化》内容简介:淘宝搜索流量,尤其是自然搜索流量是一块大蛋糕!但是淘宝的搜索规则
《我喜欢人生快活的样子》内容简介:本书是知名作家、美食家、生活家蔡澜书写人生态度的散文随笔集,特别收录蔡澜眼中的名人与朋友
《从秦朝说起,到清朝结束(二):楚汉争雄》内容简介:秦朝末年,作为反秦起义军的两股重要力量,刘邦和项羽不约而同地登上了历史
玩玩打打学五笔 内容简介 《玩玩打打学五笔》的出现彻底改变了这一切,这是一套原创的、快速掌握五笔字型的新方法,无须背口诀,无须刻苦,更不需要有多大的毅力,只要你...
AUTOCAD2008建筑设计宝典 目录 第1部分 基础篇第1章 AutoCAD2008的基本操作1.1AutoCAD2008概述1.2AutoCAD2008的...
ANSYS Fluent 15.0流体计算从入门到精通-升级版-(含DVD光盘1张) 本书特色 fluent软件是目前国际上比较流行的商业cfd软件,只要涉及流...
本书为21世纪高等学校规划教材。本书共有八章,主要介绍微机继电保护的基本构成原理和实现技术,包括数字信号滤波处理,微机保护
《中国历史的教训:精装版》内容简介:本书是一本以人物故事为主线、以廉政思想为内核的中国历史通俗读物,也是一本由纪检监察干部
《TypeScript项目开发实战》内容简介:本书是一本TypeScript进阶实践指南,通过9个实用项目,详细讲解如何使用TypeScript 3.0和不同