香草策略梯度法被忽视了吗？分析 Hanabi 的深度强化学习

Mar, 2022

香草策略梯度法被忽视了吗？分析 Hanabi 的深度强化学习

Is Vanilla Policy Gradient Overlooked? Analyzing Deep Reinforcement Learning for Hanabi

Bram Grooten, Jelle Wemmenhove, Maurice Poot, Jim Portegies

TL;DR通过分析多智能体合作卡牌游戏 Hanabi 基准测试中的几种在线策略深度强化学习算法，我们的研究表明，Vanilla Policy Gradient 在多个随机种子下在简化环境中表现优于 PPO，这是一个反直觉的发现。我们分析了这种行为，并研究了 Hanabi 特定的指标，并假设了 PPO 的停滞原因。此外，我们证明了完美游戏（71 个回合）和任意游戏（89 个回合）的最长长度。

Abstract

In pursuit of enhanced multi-agent collaboration, we analyze several on-policy deep reinforcement learning algorithms in the recently published h

multi-agent collaboration deep reinforcement learning hanabi benchmark proximal policy optimization vanilla policy gradient

发现论文，激发创造

梯度信息启发式近端策略优化

通过将可微分环境的解析梯度与 Proximal Policy Optimization（PPO）算法相结合，我们引入了一种新颖的策略学习方法。通过自适应修改 alpha 值，我们可以有效管理学习过程中解析策略梯度的影响，并提出了评估解析梯度方差和偏差的度量标准，在检测到高方差或偏差时减少对这些梯度的依赖。我们的方法在函数优化、物理模拟和交通控制环境等各种场景中胜过基准算法。

Dec, 2023

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

线性马尔可夫决策过程中乐观近端策略优化的理论分析

本研究针对增强学习领域中的近端政策优化（PPO）算法，在线性马尔科夫决策过程中引入乐观变体，提出了一种新的多批次更新机制，使用价值和策略类的新覆盖数论算法进行优化和分析，成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。

May, 2023

PPO 在合作多智能体游戏中令人惊讶的有效性

本研究通过四个流行的多智能体测试环境，证明了基于 PPO 的多智能体算法表现出令人惊讶的性能，并降低了样本复杂度，显示出它可以成为协同多智能体强化学习中的强基线方法。

Mar, 2021

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

重新审视近端策略优化中的设计选择

本文介绍了 Proximal Policy Optimization (PPO) 算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020

序列生成的近端策略优化及其动态版本

本论文提出了使用动态的 PPO 算法来替换 policy gradient 来更有效地完成序列生成任务（包括虚假聊天机器人），并展示了 PPO 和 PPO-dynamic 相对于 policy gradient 算法在稳定性和性能上的优越性。

Aug, 2018

基于视觉的机器人深度强化学习算法基准测试

本文通过比较常用强化学习算法及其变种在两个模拟视觉机器人问题中的表现，提出的策略包括提供实现 HER 算法所需中间预测目标，搭建空间和时间关注机制。结果表明，在这些环境中应用这些策略可以取得更好的结果。本文提出的基准测试方法为领域做出了新的贡献。

Jan, 2022

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

深度强化学习控制排队网络

本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的误差问题，试验结果表明在具有多种负载条件的系统中，该算法可以生成优于现有启发式方法的控制策略，甚至可以获得接近于最优的结果。

Jul, 2020