在线文本数据挖掘 算法原理与编程实现 本书特色
本书介绍了互联网环境下文本类型数据的分析方法,探讨了当前主流的文本挖掘技术,以及这些技术在商业环境中的具体应用。本书从算法原理和应用场景两方面分别对在线文本分析技术进行了介绍:从算法原理的角度,以数据挖掘和机器学习的相关知识为基础,介绍了以文本建模、文本分类、文本聚类、序列标注为主要任务的文本分析方法,并对当前主流的深度学习方法与文本分析的结合进行了讨论。从应用场景的角度,讨论了文本分析技术的几个重要实践领域,包括信息检索、内容摘要、口碑分析、社交网络分析以及智能系统。
在线文本数据挖掘 算法原理与编程实现 内容简介
本书介绍了互联网环境下文本类型数据的分析方法,探讨了当前主流的文本挖掘技术,以及这些技术在商业环境中的具体应用。本书从算法原理和应用场景两方面分别对在线文本分析技术进行了介绍:从算法原理的角度,以数据挖掘和机器学习的相关知识为基础,介绍了以文本建模、文本分类、文本聚类、序列标注为主要任务的文本分析方法,并对当前主流的深度学习方法与文本分析的结合进行了讨论。从应用场景的角度,讨论了文本分析技术的几个重要实践领域,包括信息检索、内容摘要、口碑分析、社交网络分析以及智能系统。
在线文本数据挖掘 算法原理与编程实现 目录
第1章概述1
1.1网络运营与文本分析1
1.1.1互联网运营的战略思维1
1.1.2网络运营与大数据文本分析2
1.2文本分析的4V特征4
1.2.1Volume特征4
1.2.2Variety特征5
1.2.3Value特征6
1.2.4Velocity特征7
1.3在线文本分析应用8
1.3.1在线文本分析的管理类应用9
1.3.2在线文本分析的内容类应用12
1.4本章小结16
第2章预备知识18
2.1文本挖掘的主要任务18
2.2语义分析与语法分析20
2.3文本的结构化分析21
2.4文本的标准化分析24
2.5机器学习的基本概念24
2.5.1机器学习与深度学习25
2.5.2机器学习的基本要素33
2.6机器学习的重要问题36
2.6.1概率图模型36
2.6.2判别式模型和产生式模型39
2.6.3机器学习模型求解40
2.6.4模型过拟合43
2.7本章小结45
第3章文本建模46
3.1文本建模的基本概念46
3.2文本建模的应用场景48
3.2.1主体角色识别48
3.2.2语言风格分析49
3.2.3智能系统49
3.2.4文本表示50
3.2.5文本降维50
3.2.6话题分析50
3.3语言学建模概述51
3.4词标注分析52
3.5句法分析55
3.5.1转换生成语法56
3.5.2依存句法56
3.6知识库与语义网58
3.7统计学建模概述59
3.8向量空间模型61
3.9LSI模型64
3.9.1SVD64
3.9.2基于SVD的降维分析66
3.10Unigram模型67
3.11pLSI模型67
3.11.1pLSI的模型结构67
3.11.2pLSI的参数估计68
3.12LDA主题模型70
3.12.1LDA的模型结构70
3.12.2LDA的参数估计72
3.13主题模型拓展75
3.13.1相关主题模型76
3.13.2层次主题模型77
3.13.3动态主题模型80
3.13.4句子主题模型82
3.14基于词汇的统计学建模方法83
3.15本章小结86
第4章文本分类88
4.1文本分类的基本概念88
4.2文本分类的应用场景89
4.2.1文档有用性判断89
4.2.2口碑情感分析90
4.2.3负面信息识别90
4.2.4信息检索90
4.3朴素贝叶斯模型91
4.3.1贝努利模型91
4.3.2多项式模型93
4.3.3模型参数平滑94
4.4向量空间模型95
4.4.1Rocchio方法95
4.4.2KNN方法96
4.5SVM模型97
4.5.1硬间隔SVM97
4.5.2软间隔SVM100
4.6文本分类的评价102
4.6.1二元分类评价102
4.6.2多类问题评价104
4.6.3分类测试集105
4.7分类特征优化106
4.7.1分类特征提取106
4.7.2分类特征转化112
4.7.3分类特征扩展114
4.8分类学习策略优化117
4.8.1AdaBoost算法117
4.8.2主动式学习118
4.8.3迁移学习119
4.9本章小结119
第5章文本聚类121
5.1文本聚类的基本概念121
5.2文本聚类的应用场景122
5.2.1探索分析122
5.2.2降维123
5.2.3信息检索123
5.3扁平式聚类124
5.3.1K-均值算法125
5.3.2基于模型的聚类128
5.4凝聚式聚类132
5.4.1层次聚类132
5.4.2基于簇距离的聚类过程132
5.4.3算法停止条件135
5.5聚类结果分析136
5.5.1聚类算法评估136
5.5.2聚类标签生成138
5.6聚类特征优化140
5.6.1基于迭代的方法141
5.6.2无监督指标141
5.7半监督聚类143
5.7.1迁移学习144
5.7.2AP算法145
5.8短文本聚类146
5.8.1文本特征补充146
5.8.2TermCut算法148
5.8.3Dirichlet多项式混合模型149
5.9流数据聚类151
5.9.1OSKM算法151
5.9.2可拓展K-means算法152
5.10本章小结153
第6章序列标注155
6.1序列标注的基本概念155
6.2序列标注的应用场景157
6.2.1词性标注157
6.2.2命名实体识别157
6.2.3分词157
6.3HMM158
6.3.1HMM的概率计算问题160
6.3.2HMM的学习问题162
6.2.3HMM的预测问题164
6.4*大熵模型和*大熵马尔可夫模型166
6.4.1*大熵模型167
6.4.2*大熵马尔可夫模型170
6.5条件随机场172
6.5.1标注偏置问题172
6.5.2条件随机场的基本原理174
6.6本章小结176
第7章信息检索177
7.1信息检索的基本概念177
7.2信息检索的应用场景180
7.2.1搜索引擎180
7.2.2内容推荐182
7.3基于空间模型的信息检索184
7.3.1文档查找184
7.3.2文档排序185
7.3.3系统评价187
7.4基于概率模型的信息检索190
7.4.1二值独立模型191
7.4.2模型参数估计193
7.5基于语言模型的信息检索196
7.5.1语言模型196
7.5.2查询似然模型198
7.6本章小结201
第8章文本摘要203
8.1文本摘要的基本概念203
8.2文本摘要的应用场景206
8.2.1信息检索206
8.2.2信息压缩207
8.2.3用户画像208
8.2.4知识管理209
8.3关键词提取的特征设计210
8.3.1词频特征210
8.3.2词汇基础特征211
8.3.3词汇位置特征212
8.3.4词汇标记特征214
8.4关键词提取的有监督算法214
8.5关键词提取的无监督算法217
8.5.1简单指标设计217
8.5.2复合指标设计217
8.6基于图模型的关键词提取算法218
8.6.1图模型静态指标算法220
8.6.2图模型动态指标算法223
8.7关键词提取的技术优化226
8.7.1长文本问题优化227
8.7.2短文本问题优化228
8.7.3多主题特征优化229
8.7.4时序特征优化232
8.7.5歧义问题优化233
8.8关键短语提取234
8.8.1短语性指标235
8.8.2信息性指标235
8.9关键句提取236
8.9.1基于词汇关键性的方法236
8.9.2基于句子特征的方法237
8.9.3基于图模型的方法238
8.10本章小结240
第9章口碑分析241
9.1口碑分析的基本概念242
9.2口碑分析的应用场景243
9.2.1用户视角的应用243
9.2.2网站运营者视角的应用244
9.2.3商家视角的应用244
9.2.4其他应用245
9.3基于词典的评价对象提取245
9.4基于语料的评价对象提取246
9.5评价水平量化252
9.5.1整体粗粒度情感分析253
9.5.2整体细粒度情感分析254
9.5.3局部粗粒度情感分析258
9.5.4局部细粒度情感分析259
9.6基于语言模型的情感分析技术259
9.6.1*大熵LDA主题模型:模型性质260
9.6.2*大熵LDA主题模型:基本结构260
9.6.3*大熵LDA主题模型:参数估计263
9.7本章小结265
第10章社交网络分析266
10.1社交网络分析的基本概念266
10.2社交网络分析的应用场景269
10.2.1虚拟社区发现270
10.2.2用户影响力分析271
10.2.3情感分析271
10.2.4话题发现与演化272
10.2.5信息检索273
10.3社交网络的虚拟社区发现274
10.3.1社区发现的信息基础274
10.3.2基于隐性位置的聚类模型275
10.4社交网络的用户影响力分析276
10.4.1网络结构与用户影响力276
10.4.2TwitterRank算法277
10.5社交网络的情感分析279
10.5.1基于表情符号的训练集合构建279
10.5.2基于POSTag的特征优化280
10.6社交网络的话题发现与演化282
10.6.1话题发现分析282
10.6.2Twitter-LDA284
10.6.3基于文档聚类的话题发现284
10.6.4基于词汇聚类的话题发现286
10.6.5话题演化分析287
10.6.6基于NMF的主题建模287
10.7社交网络的信息检索289
10.7.1信息检索的内容拓展策略290
10.7.2信息检索的综合排序策略291
10.8本章小结293
第11章深度学习与NLP295
11.1基本原理296
11.2词嵌入模型299
11.2.1词汇的分布式表示299
11.2.2神经概率语言模型300
11.2.3词嵌入模型概述301
11.3RNN与NLP304
11.3.1RNN304
11.3.2基于RNN的机器翻译305
11.3.3RNN的其他应用308
11.4本章小结309
第12章实证研究311
12.1研究框架311
12.1.1研究问题背景311
12.1.2问题分析313
12.2理论与模型314
12.2.1相关理论与假设314
12.2.2模型构建317
12.3文本数据处理319
12.3.1基于文本分析的口碑打分调整319
12.3.2基于文本分析的口碑权重计算323
12.3.3基于文本分析的候选集合构建324
12.4研究结论326
12.4.1实证结果326
12.4.2管理建议328
12.5本章小结329
第13章总结330
在线文本数据挖掘 算法原理与编程实现 作者简介
刘通,毕业于上海交通大学安泰经济与管理学院,获得博士研究生学位,多年从事动画、虚拟现实、手机游戏设计开发的研究。曾出版《PREMIERE PRO CS4 视频编辑与实战演练》、《手机动画角色设计》目前就职于华为技术有限公司