BERT基础教程:Transformer大模型实战

BERT基础教程:Transformer大模型实战

作者:[印] 苏达哈尔桑·拉维昌迪兰(Sudharsan Ravichandiran

出版社:人民邮电出版社

出版年:2023-3-1

评分:6.5

ISBN:9787115603722

所属分类:行业好书

书刊介绍

内容简介

【本书原版在 Amazon 获 4.1 星评,使用 BERT 建立和训练最先进自然语言处理模型的优秀实用书籍】

本书用简单的文字清晰阐释 BERT 背后的复杂原理,让你轻松上手 NLP 领域的里程碑式模型。本书内含 200+ 张示意图,示例涵盖文本分类、文本摘要、问答等 常见任务。

【内容简介】

本书聚焦谷歌公司开发的 BERT 自然语言处理模型,由浅入深地介绍了 BERT 的工作原理、BERT 的各种变体及其应用。本书呈现了大量示意图、代码和实例,详细解析了如何训练 BERT 模型、如何使用 BERT 模型执行自然语言推理任务、文本摘要任务、问答任务、命名实体识别任务等各种下游 任务,以及如何将 BERT 模型应用于多种语言。通读本书后,读者不仅能够全面了解有关 BERT 的各种概念、术语和原理,还能够使用 BERT 模型及其变体执行各种自然语言处理任务。

【编辑推荐】

※ 轻松上手:循序渐进,引导你亲手训练和理解 BERT 模型

※ 以简驭繁:示意图丰富,逐步拆解复杂原理,小白也能看懂

※ 运用自如:呈现多种下游任务,凝聚实战经验,助你灵活运用

※ 全面系统:详细讲解十余种 BERT 变体的原理,配套大量示例和习题

作品目录

第一部分 开始使用 BERT
第 1 章 Transformer 概览
1.1 Transformer 简介
1.2 理解编码器
1.2.1 自注意力机制
1.2.2 多头注意力层
1.2.3 通过位置编码来学习位置
1.2.4 前馈网络层
1.2.5 叠加和归一组件
1.2.6 编码器总览
1.3 理解解码器
1.3.1 带掩码的多头注意力层
1.3.2 多头注意力层
1.3.3 前馈网络层
1.3.4 叠加和归一组件
1.3.5 线性层和 softmax 层
1.3.6 解码器总览
1.4 整合编码器和解码器
1.5 训练 Transformer
1.6 小结
1.7 习题
1.8 深入阅读
第 2 章 了解 BERT 模型
2.1 BERT 的基本理念
2.2 BERT 的工作原理
2.3 BERT 的配置
2.3.1 BERT-base
2.3.2 BERT-large
2.3.3 BERT 的其他配置
2.4 BERT 模型预训练
2.4.1 输入数据
2.4.2 预训练策略
2.4.3 预训练过程
2.5 子词词元化算法
2.5.1 字节对编码
2.5.2 字节级字节对编码
2.5.3 WordPiece
2.6 小结
2.7 习题
2.8 深入阅读
第 3 章 BERT 实战
3.1 预训练的 BERT 模型
3.2 从预训练的 BERT 模型中提取嵌入
3.2.1 Hugging Face 的Transformers 库
3.2.2 BERT 嵌入的生成
3.3 从 BERT 的所有编码器层中提取嵌入
3.4 针对下游任务进行微调
3.4.1 文本分类任务
3.4.2 自然语言推理任务
3.4.3 问答任务
3.4.4 命名实体识别任务
3.5 小结
3.6 习题
3.7 深入阅读
第二部分 探索 BERT 变体
第 4 章 BERT 变体(上):ALBERT、RoBERTa、ELECTRA 和 SpanBERT
4.1 BERT 的精简版 ALBERT
4.1.1 跨层参数共享
4.1.2 嵌入层参数因子分解
4.1.3 训练 ALBERT 模型
4.1.4 对比 ALBERT与 BERT
4.2 从 ALBERT 中提取嵌入
4.3 了解 RoBERTa
4.3.1 使用动态掩码而不是静态掩码
4.3.2 移除下句预测任务
4.3.3 用更多的数据集进行训练
4.3.4 以大批量的方式进行训练
4.3.5 使用字节级字节对编码作为子词词元化算法
4.4 了解 ELECTRA
4.4.1 了解替换标记检测任务
4.4.2 ELECTRA 的生成器和判别器
4.4.3 训练 ELECTRA 模型
4.4.4 高效的训练方法
4.5 用 SpanBERT 预测文本段
4.5.1 了解 SpanBERT 的架构
4.5.2 深入了解 SpanBERT
4.5.3 将预训练的 SpanBERT 用于问答任务
4.6 小结
4.7 习题
4.8 深入阅读
第 5 章 BERT 变体(下):基于知识蒸馏
5.1 知识蒸馏简介
5.2 DistilBERT 模型——BERT 模型的知识蒸馏版本
5.2.1 教师−学生架构
5.2.2 训练学生 BERT 模型(DistilBERT 模型)
5.3 TinyBERT 模型简介
5.3.1 教师−学生架构
5.3.2 TinyBERT 模型的蒸馏
5.3.3 最终损失函数
5.3.4 训练学生 BERT 模型(TinyBERT 模型)
5.4 将知识从 BERT 模型迁移到神经网络中
5.4.1 教师−学生架构
5.4.2 训练学生网络
5.4.3 数据增强方法
5.5 小结
5.6 习题
5.7 深入阅读
第三部分 BERT 模型的应用
第 6 章 用于文本摘要任务的BERTSUM 模型
6.1 文本摘要任务
6.1.1 提取式摘要任务
6.1.2 抽象式摘要任务
6.2 为文本摘要任务微调 BERT 模型
6.2.1 使用 BERT 模型执行提取式摘要任务
6.2.2 使用 BERT 模型执行抽象式摘要任务
6.3 理解 ROUGE 评估指标
6.3.1 理解 ROUGE-N 指标
6.3.2 理解 ROUGE-L 指标
6.4 BERTSUM 模型的性能
6.5 训练 BERTSUM 模型
6.6 小结
6.7 习题
6.8 深入阅读
第 7 章 将 BERT 模型应用于其他语言
7.1 理解多语言 BERT 模型
7.2 M-BERT 模型的多语言表现
7.2.1 词汇重叠的影响
7.2.2 跨文本书写的通用性
7.2.3 跨类型特征的通用性
7.2.4 语言相似性的影响
7.2.5 语码混用和音译的影响
7.3 跨语言模型
7.3.1 预训练策略
7.3.2 预训练 XLM 模型
7.3.3 对 XLM 模型的评估
7.4 理解 XLM-R 模型
7.5 特定语言的 BERT 模型
7.5.1 法语的 FlauBERT 模型
7.5.2 西班牙语的 BETO 模型
7.5.3 荷兰语的 BERTje 模型
7.5.4 德语的 BERT 模型
7.5.5 汉语的 BERT 模型
7.5.6 日语的 BERT 模型
7.5.7 芬兰语的 FinBERT 模型
7.5.8 意大利语的 UmBERTo 模型
7.5.9 葡萄牙语的 BERTimbau 模型
7.5.10 俄语的 RuBERT 模型
7.6 小结
7.7 习题
7.8 深入阅读
第 8 章 Sentence-BERT 模型和特定领域的 BERT 模型
8.1 用 Sentence-BERT 模型生成句子特征
8.1.1 计算句子特征
8.1.2 了解 Sentence-BERT 模型
8.2 sentence-transformers 库
8.2.1 使用 Sentence-BERT 计算句子特征
8.2.2 计算句子的相似度 .
8.2.3 加载自定义模型
8.2.4 用 Sentence-BERT 模型寻找类似句子
8.3 通过知识蒸馏迁移多语言嵌入
8.3.1 教师−学生架构
8.3.2 使用多语言模型
8.4 特定领域的 BERT 模型:ClinicalBERT 模型和BioBERT 模型
8.4.1 ClinicalBERT 模型
8.4.2 BioBERT 模型
8.5 小结
8.6 习题
8.7 深入阅读
第 9 章 VideoBERT 模型和BART 模型
9.1 VideoBERT 模型学习语言及视频特征
9.1.1 预训练 VideoBERT 模型
9.1.2 数据源和预处理
9.1.3 VideoBERT 模型的应用
9.2 了解 BART 模型
9.2.1 BART 模型的架构
9.2.2 比较不同的预训练目标
9.2.3 使用 BART 模型执行文本摘要任务
9.3 探讨 BERT 库
9.3.1 ktrain 库
9.3.2 bert-as-service 库
9.4 小结
9.5 习题
9.6 深入阅读
习题参考答案
· · · · · ·

作者简介

【作者简介】

苏达哈尔桑·拉维昌迪兰(Sudharsan Ravichandiran)

热爱开源社区的数据科学家,研究方向为深度学习和强化学习的实际应用,在自然语言处理和计算机视觉等领域都颇有建树,另著有《Python强化学习实战》。

【译者简介】

周参

就职于谷歌,任软件工程师,研究方向为自然语言处理。工作之余的兴趣是研究人工智能领域机器学习方向以及新的模型算法,并将多种深度学习模型应用于实际问题中。

相关推荐

微信二维码