当前位置：

机器翻译：基础与模型

作者：肖桐

出版社：电子工业出版社

出版年：2021-10

评分：9.8

ISBN：9787121335198

所属分类：行业好书

书刊介绍

内容简介

肖桐

博士，东北大学教授、博士生导师，东北大学计算机学院人工智能系系主任，东北大学自然语言处理实验室主任，小牛翻译（NiuTrans）联合创始人。于东北大学计算机专业获得博士学位。2006—2009年赴日本富士施乐、微软亚洲研究院访问学习，并于2013—2014年赴英国剑桥大学开展博士后研究。主要研究领域包括自然语言处理、机器学习等。在国内外相关领域高水平会议及期刊上发表学术论文70余篇。作为项目技术负责人，成功研发了NiuTrans、NiuTensor等开源系统，在WMT、CCMT/CWMT、NTCIR等国内外评测中多次获得冠军。2014年获得中国中文信息学会首届优秀博士论文提名奖，2016年获得中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖。任ACL、TACL等国际著名会议及期刊的领域主席和常驻审稿人。

朱靖波

博士，东北大学教授、博士生...

()

作品目录

第1部分机器翻译基础
1 机器翻译简介2
1.1 机器翻译的概念2
1.2 机器翻译简史 4
1.2.1 人工翻译4
1.2.2 机器翻译的萌芽 5
1.2.3 机器翻译的受挫 6
1.2.4 机器翻译的快速成长 7
1.2.5 机器翻译的爆发8
1.3 机器翻译现状及挑战9
1.4 基于规则的机器翻译方法12
1.4.1 规则的定义 12
1.4.2 转换法13
1.4.3 基于中间语言的方法 15
1.4.4 基于规则的方法的优缺点16
1.5 数据驱动的机器翻译方法16
1.5.1 基于实例的机器翻译16
1.5.2 统计机器翻译17
1.5.3 神经机器翻译18
1.5.4 对比分析19
1.6 推荐学习资源20
1.6.1 经典书籍20
1.6.2 相关学术会议21
2 统计语言建模基础24
2.1 概率论基础24
2.1.1 随机变量和概率24
2.1.2 联合概率、条件概率和边缘概率26
2.1.3 链式法则27
2.1.4 贝叶斯法则28
2.1.5 KL 距离和熵 29
2.2 掷骰子游戏 31
2.3 n-gram 语言模型 34
2.3.1 建模35
2.3.2 参数估计和平滑算法 37
2.3.3 语言模型的评价42
2.4 预测与搜索 43
2.4.1 搜索问题的建模44
2.4.2 经典搜索47
2.4.3 局部搜索50
2.5 小结及拓展阅读 52
3 词法分析和语法分析基础54
3.1 问题概述54
3.2 中文分词 56
3.2.1 基于词典的分词方法 57
3.2.2 基于统计的分词方法 58
3.3 命名实体识别60
3.3.1 序列标注任务 60
3.3.2 基于特征的统计学习62
3.3.3 基于概率图模型的方法63
3.3.4 基于分类器的方法69
3.4 句法分析 71
3.4.1 句法树71
3.4.2 上下文无关文法73
3.4.3 规则和推导的概率77
3.5 小结及拓展阅读 79
4 翻译质量评价 81
4.1 译文质量评价面临的挑战81
4.2 人工评价84
4.2.1 评价策略84
4.2.2 打分标准85
4.3 有参考答案的自动评价 86
4.3.1 基于词串比对的评价方法86
4.3.2 基于词对齐的评价方法89
4.3.3 基于检测点的评价方法93
4.3.4 多策略融合的评价方法 94
4.3.5 译文多样性94
4.3.6 相关性与显著性98
4.4 无参考答案的自动评价101
4.4.1 质量评估任务101
4.4.2 构建质量评估模型106
4.4.3 质量评估的应用场景107
4.5 小结及拓展阅读108
第2部分统计机器翻译
5 基于词的机器翻译建模111
5.1 词在翻译中的作用 111
5.2 一个简单实例 113
5.2.1 翻译的流程113
5.2.2 统计机器翻译的基本框架115
5.2.3 单词级翻译模型116
5.2.4 句子级翻译模型119
5.2.5 解码 122
5.3 噪声信道模型125
5.4 统计机器翻译的3个基本问题 127
5.4.1 词对齐128
5.4.2 基于词对齐的翻译模型129
5.4.3 基于词对齐的翻译实例130
5.5 IBM模型1 131
5.5.1 IBM模型1的建模131
5.5.2 解码及计算优化133
5.5.3 训练134
5.6 小结及拓展阅读140
6 基于扭曲度和繁衍率的模型 142
6.1 基于扭曲度的模型142
6.1.1 什么是扭曲度142
6.1.2 IBM模型2 144
6.1.3 隐马尔可夫模型145
6.2 基于繁衍率的模型146
6.2.1 什么是繁衍率146
6.2.2 IBM模型3 149
6.2.3 IBM模型4 151
6.2.4 IBM模型5 152
6.3 解码和训练154
6.4 问题分析 154
6.4.1 词对齐及对称化154
6.4.2 “缺陷”问题 155
6.4.3 句子长度156
6.4.4 其他问题156
6.5 小结及拓展阅读 157
7 基于短语的模型158
7.1 翻译中的短语信息158
7.1.1 词的翻译带来的问题158
7.1.2 更大粒度的翻译单元159
7.1.3 机器翻译中的短语161
7.2 数学建模164
7.2.1 基于翻译推导的建模164
7.2.2 对数线性模型166
7.2.3 判别模型中的特征167
7.2.4 搭建模型的基本流程167
7.3 短语抽取168
7.3.1 与词对齐一致的短语168
7.3.2 获取词对齐169
7.3.3 度量双语短语质量170
7.4 翻译调序建模172
7.4.1 基于距离的调序172
7.4.2 基于方向的调序173
7.4.3 基于分类的调序174
7.5 翻译特征175
7.6 最小错误率训练175
7.7 栈解码 179
7.7.1 翻译候选匹配180
7.7.2 翻译假设扩展181
7.7.3 剪枝181
7.7.4 解码中的栈结构183
7.8 小结及拓展阅读184
8 基于句法的模型186
8.1 翻译中句法信息的使用186
8.2 基于层次短语的模型188
8.2.1 同步上下文无关文法190
8.2.2 层次短语规则抽取194
8.2.3 翻译特征196
8.2.4 CKY解码197
8.2.5 立方剪枝200
8.3 基于语言学句法的模型 203
8.3.1 基于句法的翻译模型分类205
8.3.2 基于树结构的文法 206
8.3.3 树到串翻译规则抽取212
8.3.4 树到树翻译规则抽取220
8.3.5 句法翻译模型的特征223
8.3.6 基于超图的推导空间表示224
8.3.7 基于树的解码vs基于串的解码227
8.4 小结及拓展阅读231
第3部分神经机器翻译
9 神经网络和神经语言建模234
9.1 深度学习与神经网络234
9.1.1 发展简史235
9.1.2 为什么需要深度学习237
9.2 神经网络基础239
9.2.1 线性代数基础239
9.2.2 神经元和感知机244
9.2.3 多层神经网络248
9.2.4 函数拟合能力252
9.3 神经网络的张量实现256
9.3.1 张量及其计算256
9.3.2 张量的物理存储形式259
9.3.3 张量的实现手段259
9.3.4 前向传播与计算图260
9.4 神经网络的参数训练262
9.4.1 损失函数262
9.4.2 基于梯度的参数优化264
9.4.3 参数更新的并行化策略272
9.4.4 梯度消失、梯度爆炸和稳定性训练273
9.4.5 过拟合275
9.4.6 反向传播 276
9.5 神经语言模型281
9.5.1 基于前馈神经网络的语言模型281
9.5.2 对于长序列的建模284
9.5.3 单词表示模型286
9.5.4 句子表示模型288
9.6 小结及拓展阅读290
10 基于循环神经网络的模型292
10.1 神经机器翻译的发展简史292
10.1.1 神经机器翻译的起源294
10.1.2 神经机器翻译的品质296
10.1.3 神经机器翻译的优势298
10.2 编码器-解码器框架300
10.2.1 框架结构300
10.2.2 表示学习301
10.2.3 简单的运行实例302
10.2.4 机器翻译范式的对比303
10.3 基于循环神经网络的翻译建模304
10.3.1 建模 305
10.3.2 长短时记忆网络308
10.3.3 门控循环单元310
10.3.4 双向模型311
10.3.5 多层神经网络312
10.4 注意力机制 313
10.4.1 翻译中的注意力机制 314
10.4.2 上下文向量的计算315
10.4.3 注意力机制的解读 318
10.4.4 实例：GNMT320
10.5 训练及推断321
10.5.1 训练 321
10.5.2 推断327
10.6 小结及拓展阅读331
11 基于卷积神经网络的模型332
11.1 卷积神经网络332
11.1.1 卷积核与卷积操作 333
11.1.2 步长与填充335
11.1.3 池化336
11.1.4 面向序列的卷积操作 337
11.2 基于卷积神经网络的翻译建模339
11.2.1 位置编码 341
11.2.2 门控卷积神经网络341
11.2.3 残差网络343
11.2.4 多步注意力机制 344
11.2.5 训练与推断346
11.3 局部模型的改进347
11.3.1 深度可分离卷积347
11.3.2 轻量卷积和动态卷积349
11.4 小结及拓展阅读351
12 基于自注意力的模型352
12.1 自注意力机制 352
12.2 Transformer 模型354
12.2.1 Transformer 的优势354
12.2.2 总体结构355
12.3 位置编码357
12.4 基于点乘的多头注意力机制359
12.4.1 点乘注意力机制359
12.4.2 多头注意力机制362
12.4.3 掩码操作363
12.5 残差网络和层标准化 363
12.6 前馈全连接网络子层365
12.7 训练366
12.8 推断 368
12.9 小结及拓展阅读369
第4部分机器翻译前沿
13 神经机器翻译模型训练371
13.1 开放词表371
13.1.1 大词表和未登录词问题372
13.1.2 子词 372
13.1.3 双字节编码373
13.1.4 其他方法 375
13.2 正则化376
13.2.1 L1/L2 正则化377
13.2.2 标签平滑378
13.2.3 Dropout 379
13.3 对抗样本训练 381
13.3.1 对抗样本与对抗攻击382
13.3.2 基于黑盒攻击的方法383
13.3.3 基于白盒攻击的方法384
13.4 学习策略385
13.4.1 极大似然估计的问题385
13.4.2 非 Teacher-forcing 方法386
13.4.3 强化学习方法388
13.5 知识蒸馏392
13.5.1 什么是知识蒸馏392
13.5.2 知识蒸馏的基本方法 393
13.5.3 机器翻译中的知识蒸馏 395
13.6 基于样本价值的学习396
13.6.1 数据选择 396
13.6.2 课程学习399
13.6.3 持续学习401
13.7 小结及拓展阅读401
14 神经机器翻译模型推断 403
14.1 面临的挑战403
14.2 基本问题405
14.2.1 推断方向405
14.2.2 译文长度控制406
14.2.3 搜索终止条件408
14.2.4 译文多样性408
14.2.5 搜索错误409
14.3 轻量模型410
14.3.1 输出层的词汇选择411
14.3.2 消除冗余计算411
14.3.3 轻量解码器及小模型413
14.3.4 批量推断414
14.3.5 低精度运算414
14.4 非自回归翻译 416
14.4.1 自回归vs非自回归416
14.4.2 非自回归翻译模型的结构417
14.4.3 更好的训练目标420
14.4.4 引入自回归模块421
14.4.5 基于迭代精化的非自回归翻译模型423
14.5 多模型集成424
14.5.1 假设选择424
14.5.2 局部预测融合426
14.5.3 译文重组427
14.6 小结与拓展阅读428
15 神经机器翻译模型结构优化430
15.1 注意力机制的改进 430
15.1.1 局部信息建模430
15.1.2 多分支结构437
15.1.3 引入循环机制439
15.1.4 高效的自注意力模型440
15.2 神经网络连接优化及深层模型441
15.2.1 Post-Norm vs Pre-Norm 442
15.2.2 高效信息传递444
15.2.3 面向深层模型的参数初始化策略448
15.2.4 深层模型的训练加速451
15.2.5 深层模型的健壮性训练454
15.3 基于句法的神经机器翻译模型456
15.3.1 在编码器中使用句法信息456
15.3.2 在解码器中使用句法信息461
15.4 基于结构搜索的翻译模型优化463
15.4.1 网络结构搜索464
15.4.2 网络结构搜索的基本方法465
15.4.3 机器翻译任务下的网络结构搜索468
15.5 小结及拓展阅读470
16 低资源神经机器翻译471
16.1 数据的有效使用471
16.1.1 数据增强472
16.1.2 基于语言模型的方法477
16.2 双向翻译模型 482
16.2.1 双向训练482
16.2.2 对偶学习483
16.3 多语言翻译模型486
16.3.1 基于枢轴语言的方法486
16.3.2 基于知识蒸馏的方法487
16.3.3 基于迁移学习的方法488
16.4 无监督机器翻译491
16.4.1 无监督词典归纳491
16.4.2 无监督统计机器翻译494
16.4.3 无监督神经机器翻译495
16.5 领域适应499
16.5.1 基于数据的方法500
16.5.2 基于模型的方法501
16.6 小结及拓展阅读 503
17 多模态、多层次机器翻译 504
17.1 机器翻译需要更多的上下文504
17.2 语音翻译 505
17.2.1 音频处理505
17.2.2 级联语音翻译507
17.2.3 端到端语音翻译508
17.3 图像翻译513
17.3.1 基于图像增强的文本翻译514
17.3.2 图像到文本的翻译516
17.3.3 图像、文本到图像的翻译 519
17.4 篇章级翻译519
17.4.1 篇章级翻译的挑战519
17.4.2 篇章级翻译的评价520
17.4.3 篇章级翻译的建模 521
17.4.4 在推断阶段结合篇章上下文525
17.5 小结及拓展阅读 526
18 机器翻译应用技术528
18.1 机器翻译的应用并不简单528
18.2 增量式模型优化 529
18.3 交互式机器翻译530
18.4 翻译结果的可干预性532
18.5 小设备机器翻译 533
18.6 机器翻译系统的部署534
18.7 机器翻译的应用场景 535
随笔 538
后记 543
附录 A 545
A.1 统计机器翻译开源系统 545
A.2 神经机器翻译开源系统 546
附录 B 548
B.1 公开评测任务548
B.2 基准数据集 550
B.3 平行语料 551
附录 C 552
C.1 IBM 模型 2 的训练方法 552
C.2 IBM 模型 3 的训练方法553
C.3 IBM 模型 4 的训练方法555
C.4 IBM 模型 5 的训练方法 556
参考文献 559
索引 618
· · · · · ·