无限时间视角的策略梯度估计

Jun, 2011

Infinite-Horizon Policy-Gradient Estimation

Jonathan Baxter, Peter L. Bartlett

TL;DR本文提出了一种名为 GPOMDP 的基于模拟的算法，用于在部分可观测马尔可夫决策过程（POMDPs）中控制参数化随机策略，生成偏差估计的平均奖励梯度。

Abstract

gradient-based approaches to direct policy search in reinforcement learning have received much recent attention as a means to solve proble

reinforcement learning policy search gradient-based approaches partially observable markov decision processes gpomdp

发现论文，激发创造

一种用于混杂 POMDP 的策略梯度方法

该研究提出了一个新的策略梯度方法，并利用脱机数据建立了一个新的识别结果，解决了条件矩限制，提供了有限样本的非渐变界，最后证明了在某些技术条件下提出的算法的全局收敛性，这是第一份研究脱机设置下的 POMDP 的策略梯度方法的文献。

May, 2023

通过原始 - 对偶策略梯度算法学习无限时域平均奖励受限马尔可夫决策过程的通用参数化策略

本文研究了无限时段平均回报约束马尔可夫决策过程（CMDP）。在我们的知识范围内，该工作是第一个深入探讨了具有一般策略参数化的平均回报 CMDP 的遗憾和约束违反分析。为了解决这个挑战，我们提出了一种基于原始对偶的策略梯度算法，能够在确保低遗憾全局最优策略的同时，灵活处理约束。特别地，我们证明了我们提出的算法实现了 $\tilde {\mathcal {O}}({T}^{3/4})$ 的目标遗憾和 $\tilde {\mathcal {O}}({T}^{3/4})$ 的约束违反界限。

Feb, 2024

无限时标平均奖励马尔可夫决策过程中策略梯度算法的遗憾分析

本文研究了无限时间段平均回报马尔可夫决策过程（MDP）。与现有研究不同的是，我们采用了基于通用策略梯度的算法，使其摆脱了线性 MDP 结构的约束。我们提出了一种基于策略梯度的算法，并证明了其全局收敛性质。然后我们证明该算法具有 $\tilde {\mathcal {O}}({T}^{3/4})$ 的后悔度。值得注意的是，本文是第一次对于一般参数化策略梯度算法在平均回报情景下的后悔计算进行了探索性研究。

Sep, 2023

全局收敛性：在平均奖励马尔可夫决策过程中的策略梯度

该研究报告首次提出了有限时间全局收敛分析方法，针对无限时间平均奖励马尔可夫决策过程中的策略梯度方法。具体而言，我们关注的是具有有限状态和动作空间的遍历型表格型马尔可夫决策过程。我们的分析表明，策略梯度迭代以 O (log (T)) 的子线性速率收敛到最优策略，并获得了 O (log (T)) 的后悔度保证，其中 T 表示迭代次数。我们的研究工作主要贡献在于证明了策略梯度算法对于平均奖励马尔可夫决策过程的收敛性，以及得到了有限时间的性能保证。与现有的折扣奖励性能界限不同，我们的性能界限明确依赖于捕捉底层马尔可夫决策过程复杂性的常数。在此基础上，我们重新审视和改进了折扣奖励马尔可夫决策过程的性能界限，并通过模拟评估了平均奖励策略梯度算法的性能。

Mar, 2024

可证明的基于策略梯度法的平均奖励马尔可夫潜力博弈方法

研究马尔可夫潜势博弈在无限时间平均回报准则下，证明基于独立策略梯度和独立自然策略梯度的算法都能在全局收敛到纳什均衡点，同时提出了渐进性和底座条件，通过梯度和微分值函数的灵敏度边界为梯度方法奠定了基础，并证明了三种算法的收敛性以及具体的时间复杂度，当需要估计策略梯度时，我们提出了一个算法并给出了样本复杂度分析，最后通过模拟研究来验证结果。

Mar, 2024

无记忆随机策略优化在无限时域 POMDP 中的几何

本研究考虑了有限状态和动作空间的无穷时部分观察到的马尔可夫决策问题中，根据折扣或平均收益准则找到最佳的无记忆随机策略并描述了优化问题作为可行状态 - 动作频率空间中的线性优化问题并使用了多项式优化的最大化奖励来解决导航问题。

Oct, 2021

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

POMDPs 和可解释的代理的端到端策略梯度方法

一个 RL 算法，可以通过端到端训练来估算隐藏状态，并将估算可视化为状态转换图。实验结果表明，该算法可以解决简单的 POMDP 问题，并使代理行为可解释给人类。

Apr, 2023

POMDP 问题的循环自然策略梯度

研究基于循环神经网络（RNNs）的自然策略梯度方法，用于部分可观测的马尔可夫决策过程，其中 RNNs 用于策略参数化和策略评估，以解决非马尔可夫强化学习中的维度问题。通过有限时间和有限宽度的分析，我们证明了 RNN 在具有短期记忆问题的情况下的效率，并明确了所需网络宽度和样本复杂性的界限，同时指出了长期依赖情况下的挑战。

May, 2024

PEGASUS：用于大型 MDPs 和 POMDPs 的策略搜索方法

在马尔可夫决策过程 (MDP) 或部分可观测马尔可夫决策过程 (POMDP) 中搜索策略的问题上，我们提出了一种新的方法，即通过将（PO）MDP 换成一个 “等价” 的 POMDP，其中所有状态转换都是确定性的，然后通过搜索价值最高的策略来进行策略搜索，该方法适用于任意 POMDP 并且已经在自行车学习问题上进行了实证。

Jan, 2013