强化学习的预期策略梯度

AAAIJan, 2018

Expected Policy Gradients for Reinforcement Learning

Kamil Ciosek, Shimon Whiteson

TL;DR提出了期望策略梯度（EPG）方法，将随机策略梯度（SPG）和确定性策略梯度（DPG）方法统一起来，用于连续或离散动作空间的强化学习中，实验证明其在多项控制任务中胜过现有方法。

Abstract

We propose expected policy gradients (EPG), which unify stochastic policy gradients (SPG) and deterministic policy gradients (DPG) for reinforcement learning. Inspired by →

reinforcement learning policy gradients expected sarsa gaussian policies quadratic critics

发现论文，激发创造

预期策略梯度

论文提出了一种集成了随机策略梯度和确定性策略梯度的预期策略梯度，通过对动作的积分来估算梯度，证明了其可以降低梯度估算的方差，对于高斯探索，通过设置动作的海森矩阵的指数作为协方差比标准探索更优，在四个 MuJoCo 域中明显优于使用奥恩斯坦 - 乌伦贝克启发式的确定性策略梯度.

Jun, 2017

进化策略梯度

该研究提出了一种元学习方法，用于学习基于梯度的加强学习算法，即演化可微损失函数，以便代理可以最小化该损失来优化其策略并获得高回报。经实证结果表明，与现成的策略梯度方法相比，所提出的演化策略梯度算法（EPG）在几个随机环境上实现了更快的学习，且其学习的损失可以推广到测试时间外的任务，并呈现出与其他流行的元学习算法截然不同的行为。

Feb, 2018

用随机策略梯度学习最优确定性策略

通过比较基于动作和基于参数的探索，本论文介绍了一种理论框架以及对全局收敛性的研究，用于理解强化学习中连续问题的策略梯度方法，可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。

May, 2024

PC-PG: 基于策略覆盖指导探索的可证明策略梯度学习

介绍了 Policy Cover-Policy Gradient (PC-PG) 算法，其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡，同时具有强大的模型误差优化保证

Jul, 2020

斯坦变分策略梯度

本文提出了一种最大熵策略优化框架，该框架明确地鼓励参数探索，并表明这个框架可以被归约为一个贝叶斯推理问题。然后，我们提出了一种新颖的斯坦变分策略梯度方法 (SVPG)，该方法结合了现有的策略梯度方法和一个排斥函数来生成一组多样但行为良好的策略。在连续控制问题上，我们发现在 REINFORCE 和优势演员 - 评论家算法的基础上实现 SVPG 可以提高平均回报和数据效率。

Apr, 2017

面向基于行动者和表格式马尔可夫决策的有原则实用策略梯度

我们考虑用于赌博机和表格马尔可夫决策过程（MDP）的（随机）softmax 策略梯度（PG）方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛，而不需要设置算法参数。为了解决这个问题，我们借鉴了优化文献的思路，在精确设置和随机设置的情况下设计了实用的、有原则的 PG 方法。

May, 2024

一种混合随机策略梯度算法用于强化学习

提出了一种新的混合随机策略梯度估计器，并使用此估计器开发了一种新的混合随机策略梯度算法（ProxHSPGA）来解决复合策略优化问题，该算法可以处理策略参数上的约束或规则化，已经在强化学习中的一些示例上进行了评估和验证。

Mar, 2020

具有熵正则化的独立自然策略梯度在游戏中的线性收敛

这项研究主要关注多智能体强化学习中的熵正则化独立自然策略梯度算法，通过引入熵正则化实现有界理性的决策，从而使智能体的行为接近纳什均衡，并通过实证结果验证了理论分析的可靠性。

May, 2024

可证明的基于策略梯度法的平均奖励马尔可夫潜力博弈方法

研究马尔可夫潜势博弈在无限时间平均回报准则下，证明基于独立策略梯度和独立自然策略梯度的算法都能在全局收敛到纳什均衡点，同时提出了渐进性和底座条件，通过梯度和微分值函数的灵敏度边界为梯度方法奠定了基础，并证明了三种算法的收敛性以及具体的时间复杂度，当需要估计策略梯度时，我们提出了一个算法并给出了样本复杂度分析，最后通过模拟研究来验证结果。

Mar, 2024

分布式分布式确定性策略梯度

本研究采用分布式角度的强化学习来适用于连续控制环境，提出了分布式分布式深度确定策略梯度算法 D4PG，结合了 N 步回报和优先经验回放等简单改进。实验结果表明，在各种控制任务、难以操作的任务和一组基于障碍的定位任务中，D4PG 算法均实现了最先进的性能。

Apr, 2018