PG-Rainbow：在策略梯度方法中应用分布式强化学习

Jul, 2024

PG-Rainbow：在策略梯度方法中应用分布式强化学习

PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods

WooJae Jeon, KanJun Lee, Jeewoo Lee

TL;DR利用PG-Rainbow算法，在分布式强化学习框架中整合策略梯度算法，通过使用含有奖励分布信息的隐式分位网络，使策略代理能够全面评估给定状态下潜在动作的后果，提升决策能力。在Atari-2600游戏套件（通过Arcade Learning Environment模拟）中评估了该算法的性能。

Abstract

This paper introduces pg-rainbow, a novel algorithm that incorporates a distributional reinforcement learning framework with a policy gradient al

发现论文，激发创造

结合策略梯度与Q-learning

本文提出了一种新技术，将策略梯度与Q-learning相结合，通过回放缓冲提取On-policy数据，从策略的动作偏好中估计Q值，并应用Q-learning更新。实验结果表明，这种PGQL技术在全套Atari游戏中的性能超过了异步优势actor-critic（A3C）和Q-learning，能够提高数据效率和稳定性。

Nov, 2016

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化(PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化“替代”目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明PPO在模拟机器人运动和Atari视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

分位数回归的分布式强化学习

本文介绍了一种分布强化学习方法，不仅仅用于估计价值函数的平均值，而是显式地建模返回的分布，通过闭合实验和文献相关得到了一些理论和算法上的结果，最后在Atari 2600游戏中，该算法的表现显著优于许多DQN的改进方案，包括相关的分布式算法C51。

Oct, 2017

隐式分位数网络用于分布式强化学习

本文介绍了一种基于分布式强化学习的方法，通过使用分位回归来逼近状态-动作回报分布的全量位函数来得到一个灵活、高效且可应用于各种环境的动态规划方法，并通过在57个Atari 2600游戏中的表现来展示算法的性能，并使用其隐式定义的分布来研究风险敏感性政策在Atari游戏中的效果。

Jun, 2018

分布式强化学习中的统计和样本

本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法，提出了一种新算法EDRL，同时介绍了ER-DQN，将EDRL应用在Atari-57游戏集上进行了评估。

Feb, 2019

分布式强化学习全参数分位函数

本文提出了一种新的分布式强化学习算法，该算法采用完全参数化分位函数，通过参数化分位函数的分位数量轴和值轴来更好地估计连续分布，并在 Atar 游戏环境中得到了前所未有的表现。

Nov, 2019

重新审视 Rainbow：促进更具启示性和包容性的深度强化学习研究

本文讨论在计算资源不足的情况下，重点研究小规模环境对于强化学习的科学洞见和降低贫困社区进入门槛的重要性，并通过更深入的研究Rainbow算法来证实此论点。

Nov, 2020

高效探索的非降分位函数网络在分布式强化学习中的应用

本文主要介绍了关于分布式强化学习(DRL)中，如何保证量化函数的有效性和高效利用分布信息的两个问题。在此基础上，提出了非降量化函数网络(NDQFN)保证得到的量化估计的单调性，并设计了一种名为分布预测误差(DPE)的通用探索框架，利用该框架整个量化函数的分布。通过对Atari 2600 Games等一些难度较大的游戏进行性能分析和对比，论证了所提方法的理论必要性和实际性能提高。

May, 2021

使用蒙特卡罗树搜索的策略梯度算法用于非马尔可夫决策过程

本文介绍一种结合 Policy Gradient 和 Monte-Carlo Tree Search 的混合策略，旨在克服两种方法在应对非马尔可夫决策过程上的困难，有效提升算法的效率。

Jun, 2022

IGN：隐式生成网络

利用 GAN 模型的生成器和判别器函数与分位数回归来近似状态行动返回分布的完整分位数值，结合最近的分布强化学习的进展，实现了基于 IQN 的最新分布式变体模型，并在 ALE 中基于 57 种 Atari 2600 游戏的基准数据集上演示了改进的性能，进而使用策略优化和评估的方式展示了对风险敏感策略的最新训练表现。

Jun, 2022