大数据丛书文本挖掘-人文社科-文化科教-太极之巅书单号

书刊介绍

大数据丛书文本挖掘目录

译者序
原书序
1 章独立文档的关键词的自动提取1
1. 1 简介1
1. 1. 1 关键词提取方法 1
1. 2 快速自动关键词提取 3
1. 2. 1 候选关键词 3
1. 2. 2 关键词得分 4
1. 2. 3 邻接关键词 5
1. 2. 4 提取关键词 5
1. 3 基准评估6
1. 3. 1 准确率和召回率评估 6
1. 3. 2 效率评估7
1. 4 停用词列表生成 9
1. 5 新闻消息的评估12
1. 5. 1 MPQA 语料库12
1. 5. 2 从新闻消息中提取关键词12
1. 6 总结 15
参考文献16
2 章利用数学方法进行多语言文档聚类 17
2. 1 简介 17
2. 2 背景 17
2. 3 实验设置 18
2. 4 多语言LSA 20
2. 5 Tucker1 方法21
2. 6 PARAFAC2 方法23
2. 7 词对齐的LSA24
2. 8 潜在形态语义分析(LMSA)26
2. 9 词对齐的LMSA 27
2. 10 对技术和结果的讨论27
参考文献29
3 章使用机器学习算法对基于内容的垃圾邮件进行分类 31
3. 1 简介 31
3. 2 机器学习算法 32
3. 2. 1 朴素贝叶斯33
3. 2. 2 LogitBoost33
3. 2. 3 支持向量机34
3. 2. 4 增广的潜在语义索引空间35
3. 2. 5 径向基函数网络36
3. 3 数据预处理37
3. 3. 1 特征选择 37
3. 3. 2 信息表示 39
3. 4 邮件分类的评估39
3. 5 实验 40
3. 5. 1 使用PU1 的实验40
3. 5. 2 使用ZH1 的实验42
3. 6 分类器特点43
3. 7 结束语45
参考文献45
4 章利用非负矩阵分解研究邮件分类问题47
4. 1 简介 47
4. 1. 1 相关工作 48
4. 1. 2 概要 49
4. 2 研究背景 49
4. 2. 1 非负矩阵分解 49
4. 2. 2 计算NMF 的算法50
4. 2. 3 数据集52
4. 2. 4 解释 52
4. 3 基于特征排序的NMF 初始化 54
4. 3. 1 特征子集选择 54
4. 3. 2 FS 初始化 55
4. 4 基于NMF 的分类方法57
4. 4. 1 使用基础特征分类 58
4. 4. 2 基于NMF 的一般化LSI59
4. 5 结束语65
参考文献66
5 章使用k￣均值算法进行约束聚类 68
5. 1 简介 68
5. 2 表示法和古典k￣均值算法69
5. 3 具有布莱格曼散度的k￣均值约束聚类算法 70
5. 3. 1 具有“不能链接” 约束关系的二次k￣均值聚类 70
5. 3. 2 “必须链接” 约束关系的移除 73
5. 3. 3 使用布莱格曼散度进行聚类 75
5. 4 smoka 类型约束聚类 77
5. 5 球形k￣均值约束聚类79
5. 5. 1 仅有“不能链接” 约束关系的球形k￣均值聚类算法 80
5. 5. 2 具有“不能链接” 和“必须链接” 约束关系的球形k￣均值聚类82
5. 6 数值实验 83
5. 6. 1 二次k￣均值聚类84
5. 6. 2 球形k￣均值聚类85
5. 7 总结 85
参考文献86
6 章文本可视化技术的研究 88
6. 1 文本分析的可视化 88
6. 2 标签云图 89
6. 3 著作权及其变更的追踪 90
6. 4 数据探索和novel 模式的探索 91
6. 5 情绪追踪 92
6. 6 可视化分析和FutureLens94
6. 7 场景发现 94
6. 7. 1 场景 94
6. 7. 2 评估策略 95
6. 8 早期版本 95
6. 9 FutureLens 的特征96
6. 10 场景发现举例: 生态恐怖主义97
6. 11 场景发现举例: 毒品走私 101
6. 12 未来的工作 103
参考文献 104
7 章新颖性挖掘的自适应阈值设置 106
7. 1 简介 106
7. 2 新颖性挖掘中的自适应阈值设置 107
7. 2. 1 背景 107
7. 2. 2 动机 108
7. 2. 3 基于高斯分布的自适应阈值设置 108
7. 2. 4 实现过程中的问题 112
7. 3 实验研究 113
7. 3. 1 数据集113
7. 3. 2 加工实例 113
7. 3. 3 实验及结果116
7. 4 总结 120
参考文献 121
8 章文本挖掘与网络犯罪 122
8. 1 简介 122
8. 2 网络欺凌和网络捕食研究的现状 123
8. 2. 1 获取即时通信和在线聊天124
8. 2. 2 当前用于分析的收集124
8. 2. 3 对即时通信和在线聊天的分析125
8. 2. 4 网络捕食检测 125
8. 2. 5 网络欺凌检测 129
8. 2. 6 法律问题 130
8. 3 监控聊天的商业软件131
8. 4 结论与未来的方向 132
参考文献 133
9 章文本流中的事件和发展趋势136
9. 1 引言 136
9. 2 文本流138
9. 3 特征提取和数据还原138
9. 4 事件监测 139
9. 5 趋势检测 142
9. 6 事件和趋势描述143
9. 7 相关讨论 147
9. 8 总结 147
参考文献 148
10 章在LDA 主题模型中嵌入语义 150
10. 1 简介150
10. 2 背景150
10. 2. 1 向量空间模型151
10. 2. 2 潜在语义分析151
10. 2. 3 概率潜在语义分析151
10. 3 潜在狄利克雷分配152
10. 3. 1 图模型和生成过程153
10. 3. 2 后验推断153
10. 3. 3 在线潜在狄利克雷分配(OLDA) 154
10. 3. 4 算例分析156
10. 4 在维基百科中嵌入外部语义158
10. 4. 1 相关维基百科文章158
10. 4. 2 维基百科影响的主题模型 158
10. 5 数据驱动语义的嵌入 159
10. 5. 1 数据驱动语义嵌入的生成过程 159
10. 5. 2 嵌入数据驱动语义的OLDA 算法160
10. 5. 3 实验设计161
10. 5. 4 实验结果163
10. 6 相关工作166
10. 7 结论与未来工作 166
参考文献 166

大数据丛书文本挖掘内容简介

本书呈现了文本挖掘领域优选的算法，同时从学术界和产业界的角度介绍了文本挖掘。本书涉及的业界学者跨越多个国家，来自多个机构: 大学､企业和政府实验室。本书介绍了文本挖掘在多个领域中的自动文本分析和挖掘计算模型，这些领域包括: 机器学习､知识发现､自然语言处理和信息检索等。本书适合作为人工智能､机器学习和自然语言处理等领域相关人员的教科书和参考书。同时，也适合研究人员和从业人员阅读。