面向基于行动者和表格式马尔可夫决策的有原则实用策略梯度

May, 2024

面向基于行动者和表格式马尔可夫决策的有原则实用策略梯度

Towards Principled, Practical Policy Gradient for Bandits and Tabular MDPs

Michael Lu, Matin Aghaei, Anant Raj, Sharan Vaswani

TL;DR我们考虑用于赌博机和表格马尔可夫决策过程（MDP）的（随机）softmax 策略梯度（PG）方法。最近的研究利用了 PG 目标的平滑性和梯度支配性质来实现对最优策略的收敛，而不需要设置算法参数。为了解决这个问题，我们借鉴了优化文献的思路，在精确设置和随机设置的情况下设计了实用的、有原则的 PG 方法。

Abstract

We consider (stochastic) softmax policy gradient (PG) methods for bandits and tabular markov decision processes (MDPs). While the PG objec

softmax policy gradient bandits markov decision processes convergence rate multi-armed bandit

发现论文，激发创造

Softmax Policy Gradient 方法可能需要指数时间才能收敛

该研究针对 softmax policy gradient 方法在无限时间马尔可夫决策过程中全局收敛的复杂度问题进行了探究，给出了反例并提示了在加速 PG 方法中调整更新规则或强制执行适当规则化的必要性。

Feb, 2021

自然策略梯度原始 - 对偶方法在约束 MDPs 上的收敛性和样本复杂度

研究如何在满足预期总效用的约束条件下最大化预期总回报，提出了一种新的自然策略梯度原始 - 对偶方法来解决 Constrained Markov 决策过程（constrained MDPs）的折扣无限时域下的最优控制问题，在自然策略梯度上升和投影次梯度下降的影响下更新原始变量和对偶变量。

Jun, 2022

马尔可夫潜势博弈中 Softmax 策略梯度的收敛性和劣质纳什均衡价格保证

本文研究使用策略梯度方法解决马尔可夫势博弈 (包括完全合作的情况) 的收敛性，在策略参数化方面，包括 tabular 和神经网络等。通过引入 POA 和平滑概念，给出了 POA 边界，并通过实验比较了不同方法的收敛速度和 POA。

Jun, 2022

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

使用蒙特卡罗树搜索的策略梯度算法用于非马尔可夫决策过程

本文介绍一种结合 Policy Gradient 和 Monte-Carlo Tree Search 的混合策略，旨在克服两种方法在应对非马尔可夫决策过程上的困难，有效提升算法的效率。

Jun, 2022

政策梯度方法的基本分析

在本文中，我们对以往的优化方法进行系统研究，讨论了削影策略梯度、softmax 策略梯度、自然策略梯度等算法的全局和局部收敛性，提出了新的结果和分析技术。

Apr, 2024

策略梯度方法全局收敛到 (几乎) 局部最优策略

本研究从非凸优化的角度出发，提出一种新的 PG method 变体，利用随机滚动谱估计策略梯度，实现策略梯度的无偏估计，并在严格鞍点假设下，证明了算法的收敛性。最终，实验证明，通过重新设计奖赏函数，可以避免不良鞍点并获得更好的极限点。

Jun, 2019

最后迭代一致收敛的政策梯度原始 - 对偶算法用于约束 MDPs

本文介绍了利用 Lagrangian 方法将约束马尔可夫决策过程转化为有约束鞍点问题的优化方法，提出了两种单时间尺度的基于原始对偶算法的策略算法，可以使策略迭代收敛到一个最优受限策略。其中一个采用了一种正则化策略梯度算法，另一个采用了一种乐观的策略梯度算法。这是约束 MDPs 单时间尺度算法中第一个非渐进策略最终迭代收敛结果。

Jun, 2023

自然策略梯度方法在熵正则化下的快速全局收敛

为了证明策略优化算法的收敛性，本篇论文开发出了一种新的方法，该方法使用非统计方法提供了 $ extit {非渐进}$ 收敛保证，并专注于受 softmax 参数化限制的比例调节的策略梯度算法，重点是折扣的马尔可夫决策过程。实验证明，该算法在逼近正则化 MDP 的最优价值函数时，收敛呈线性或甚至二次收敛速度，考虑到算法的稳定性，收敛结果适应了广泛的学习速率，并阐明了熵正则化在实现快速收敛方面的作用。

Jul, 2020

用随机策略梯度学习最优确定性策略

通过比较基于动作和基于参数的探索，本论文介绍了一种理论框架以及对全局收敛性的研究，用于理解强化学习中连续问题的策略梯度方法，可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。

May, 2024