深度强化学习算法与实践:基于PyTorch的实现

深度强化学习算法与实践:基于PyTorch的实现

作者:张校捷

出版社:电子工业

出版年:2022年4月

ISBN:9787121429729

所属分类:行业好书

书刊介绍

《深度强化学习算法与实践:基于PyTorch的实现》内容简介

本书从强化学习的基础知识出发,结合PyTorch深度学习框架,介绍深度强化学习算法各种模型的相关算法原理和基于PyTorch的代码实现。作为一本介绍深度强化学习知识的相关图书,本书介绍了常用的强化学习环境,基于价值网络的强化学习算法和基于策略梯度的强化学习算法,以及一些常用的比较流行的深度强化学习算法(如蒙特卡洛树搜索)等。另外,还介绍了深度强化学习算法在实际问题中的一些应用。
作为一本深度强化学习的入门书籍,本书主要面向有深度学习和Python基础,并且希望对深度强化学习有所了解的读者。读者不仅可以从本书中获取深度强化学习有关的理论知识,还可以得到深度强化学习领域的实践知识。
张校捷,Shopee资深机器学习工程师,负责推荐系统的算法实现和优化。目前主要使用的技术栈是深度学习框架后端的C/C++/CUDA,以及深度学习框架前端的Python。熟悉主流的深度学习框架,如PyTorch和TensorFlow,同时熟悉计算机视觉、自然语言处理和推荐系统方面的深度学习算法。
作者曾多次作为专题演讲嘉宾,受邀参加Google、PyCon和CSDN主办的技术大会。

作品目录


第1章:强化学习简介
1.1、强化学习的历史
1.1.1、人工智能的历史
1.1.2、强化学习和人工智能的关系
1.2、强化学习基本概念
1.2.1、智能体相关概念
1.2.2、马尔可夫决策过程
1.2.3、动作价值函数和状态-动作价值函数
1.3、强化学习算法的分类
1.3.1、基于模型的(Model-Based)和无模型的(Model-Free)
1.3.2、基于策略的(Policy-Based)和基于价值的(Value-Based)
1.3.3、在线(On-policy)算法和离线(Off-policy)算法
1.4、深度强化学习基本概念
1.5、强化学习的优缺点
1.6、蒙特卡洛梯度估计
1.7、总结
第2章:深入了解强化学习
2.1、强化学习基本要素
2.1.1、马尔可夫决策过程和回溯图
2.1.2、贪心策略和最优策略
2.1.3、最优策略的迭代算法
2.2、强化学习的探索和利用
2.3、策略迭代和价值迭代
2.3.1、策略迭代
2.3.2、价值迭代
2.4、贝尔曼方程及其应用
2.5、总结
第3章:强化学习环境
3.1、简单的强化学习环境
3.1.1、网格世界(Grid
World)
3.1.2、多臂赌博机(Multi-armed
Bandit)
3.1.3、井字棋(Tic-Tac-Toe)
3.2、OpenAI
Gym环境
3.2.1、Gym环境的安装和基本接口
3.2.2、Gym的经典控制环境
3.2.3、Gym的Atari强化学习环境
3.2.4、Gym的MuJoCo环境
3.2.5、自定义Gym强化学习环境
3.3、DeepMind
Lab强化学习环境
3.4、其他强化学习环境
3.4.1、PySC2、强化学习环境
3.4.2、OpenSpiel强化学习环境
3.5、深度强化学习框架简介
3.5.1、Dopamine框架
3.5.1、ReAgent框架
3.6、总结
第4章:深度Q函数强化学习算法
4.1、经典深度Q网络算法(DQN)
4.1.1、DQN算法理论背景
4.1.2、DQN模型结构
4.1.3、DQN模型的输入
4.1.4、DQN模型的训练
4.1.5、结合DQN算法的采样和模型的训练
4.2、双网络Q学习算法(Double
Q-Learning)
4.2.1、算法原理
4.2.2、算法实现
4.2.3、算法效果
4.3、优先经验回放(Prioritized
Experience
Replay)
4.3.1、算法原理
4.3.2、算法实现
4.3.3、算法效果
4.4、竞争DQN算法(Duel
DQN)
4.4.1、算法原理
4.4.2、算法实现
4.4.3、算法效果
4.5、分布形式的DQN算法(Distributional
DQN)
4.5.1、分类DQN模型
4.5.2、分类DQN模型算法实现
4.5.3、分类DQN模型算法效果
4.5.4、分位数回归DQN模型
4.5.5、分位数回归DQN模型算法实现
4.5.6、分位数回归DQN模型算法效果
4.5.7、分类DQN模型小结
4.6、彩虹算法(Rainbow)
4.6.1、彩虹算法对DQN的优化
4.6.2、彩虹算法的部分实现
4.6.3、彩虹算法的模型效果
4.7、总结
第5章:策略梯度强化学习算法
5.1、经典策略梯度算法(VPG)
5.1.1、算法原理
5.1.2、基于离散动作空间算法的模型实现
5.1.3、基于离散动作空间算法的运行结果
5.1.4、基于连续动作空间算法的实现
5.1.5、基于连续动作空间算法的运行结果
5.1.6、小结
5.2、优势演员-评论家算法(A2C和A3C)
5.2.1、算法原理
5.2.2、泛化优势估计(Generalized
Advantage
Estimation)
5.2.3、熵正则化方法
5.2.4、优势演员-评论家算法的实现(离散动作空间)
5.2.5、优势演员-评论家算法运行效果(离散动作空间)
5.2.6、算法实现(连续动作空间)
5.2.7、运行效果(连续动作空间)
5.2.8、异步优势演员-评论家算法的实现
5.2.9、异步优势演员-评论家算法的效果
5.3、置信区间策略优化算法
5.3.1、算法原理
5.3.2、近端策略优化算法的实现
5.3.3、近端策略优化算法的效果(离散动作空间)
5.4、克罗内克分解近似置信区间算法(ACKTR)
5.4.1、算法原理
5.4.2、算法实现
5.4.3、算法效果
5.5、软演员-评论家算法(SAC)
5.5.1、算法的基本原理
5.5.2、算法的实现(连续动作空间)
5.5.3、算法的效果(连续动作空间)
5.6、总结
第6章:其他强化学习算法
6.1、噪声网络(Noisy
Networks)
6.1.1、噪声网络的原理
6.1.2、噪声网络的实现
6.1.3、噪声网络的效果
6.2、深度确定性策略梯度算法(DDPG)
6.2.1、算法原理
6.2.2、算法实现
6.2.3、算法效果
6.3、双延迟深度确定性策略梯度算法(TD3)
6.3.1、算法原理
6.3.2、算法实现
6.3.3、算法效果
6.4、蒙特卡洛树搜索(MCTS)
6.4.1、算法原理
6.4.2、算法的基本步骤
6.4.3、算法使用的模型
6.4.4、算法的博弈树表示
6.4.5、算法的搜索执行过程
6.5、总结
第7章:深度强化学习在实践中的应用
7.1、神经网络结构搜索(NAS)
7.1.1、算法原理
7.1.2、算法效果
7.1.3、小结
7.2、超分辨率模型(SRGAN)
7.2.1、算法原理
7.2.2、小结
7.3、序列生成模型(SeqGAN)
7.3.1、算法原理
7.3.2、小结
7.4、基于深度强化学习的推荐系统
7.4.1、推荐系统的强化学习环境构建
7.4.2、推荐系统的强化学习算法
7.4.3、小结
7.5、基于深度强化学习的交易系统
7.5.1、算法原理
7.5.2、小结
7.6、总结
附录A
本书使用的数学符号
参考文献

相关推荐

微信二维码