PC-PG: 基于策略覆盖指导探索的可证明策略梯度学习

Jul, 2020

PC-PG: 基于策略覆盖指导探索的可证明策略梯度学习

PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning

Alekh Agarwal, Mikael Henaff, Sham Kakade, Wen Sun

TL;DR介绍了 Policy Cover-Policy Gradient (PC-PG) 算法，其通过学习的策略集 (策略保证) 来平衡探索和开发的权衡，同时具有强大的模型误差优化保证

Abstract

Direct policy gradient methods for reinforcement learning are a successful approach for a variety of reasons: they are model free, they directly optimize the performance metric of interest, and they allow for ric

reinforcement learning policy gradient methods exploration vs. exploitation ensemble of learned policies model misspecification

发现论文，激发创造

使用蒙特卡罗树搜索的策略梯度算法用于非马尔可夫决策过程

本文介绍一种结合 Policy Gradient 和 Monte-Carlo Tree Search 的混合策略，旨在克服两种方法在应对非马尔可夫决策过程上的困难，有效提升算法的效率。

Jun, 2022

用随机策略梯度学习最优确定性策略

通过比较基于动作和基于参数的探索，本论文介绍了一种理论框架以及对全局收敛性的研究，用于理解强化学习中连续问题的策略梯度方法，可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。

May, 2024

乐观自然策略梯度：一种简单高效的在线强化学习策略优化框架

本文提出了一种称为 Optimistic NPG 的简单高效策略优化框架，该框架的样本复杂度具有最优的维度依赖性，可以高效地学习线性 MDP 和函数逼近下的最优策略。

May, 2023

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

元策略梯度学习探索

该研究论文提出了一种基于 `meta-policy gradient` 算法的自适应学习方法，可用于解决现有基于添加噪声的探索方法仅能探索接近 actor 策略的局部区域的问题，从而实现独立于 actor 策略的全局探索，而这对各种强化学习任务的样本效率都有相当大的提升。

Mar, 2018

线性函数逼近的谨慎乐观策略优化与探索

本文提出了一种改进版的 COPOE 算法，克服 Policy optimization 方法在采样复杂度方面的问题，同时保留它对模型不当规格化的鲁棒性。

Mar, 2021

结合策略梯度与 Q-learning

本文提出了一种新技术，将策略梯度与 Q-learning 相结合，通过回放缓冲提取 On-policy 数据，从策略的动作偏好中估计 Q 值，并应用 Q-learning 更新。实验结果表明，这种 PGQL 技术在全套 Atari 游戏中的性能超过了异步优势 actor-critic（A3C）和 Q-learning，能够提高数据效率和稳定性。

Nov, 2016

策略梯度方法全局收敛到 (几乎) 局部最优策略

本研究从非凸优化的角度出发，提出一种新的 PG method 变体，利用随机滚动谱估计策略梯度，实现策略梯度的无偏估计，并在严格鞍点假设下，证明了算法的收敛性。最终，实验证明，通过重新设计奖赏函数，可以避免不良鞍点并获得更好的极限点。

Jun, 2019

可证明的基于策略梯度法的平均奖励马尔可夫潜力博弈方法

研究马尔可夫潜势博弈在无限时间平均回报准则下，证明基于独立策略梯度和独立自然策略梯度的算法都能在全局收敛到纳什均衡点，同时提出了渐进性和底座条件，通过梯度和微分值函数的灵敏度边界为梯度方法奠定了基础，并证明了三种算法的收敛性以及具体的时间复杂度，当需要估计策略梯度时，我们提出了一个算法并给出了样本复杂度分析，最后通过模拟研究来验证结果。

Mar, 2024

面向基于行动者和表格式马尔可夫决策的有原则实用策略梯度

我们考虑用于赌博机和表格马尔可夫决策过程（MDP）的（随机）softmax 策略梯度（PG）方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛，而不需要设置算法参数。为了解决这个问题，我们借鉴了优化文献的思路，在精确设置和随机设置的情况下设计了实用的、有原则的 PG 方法。

May, 2024