有限时间分析下的平均奖励 MDP 函数逼近中的 Critic-Actor

Feb, 2024

有限时间分析下的平均奖励 MDP 函数逼近中的 Critic-Actor

Critic-Actor for Average Reward MDPs with Function Approximation: A Finite-Time Analysis

Prashansa Panda, Shalabh Bhatnagar

TL;DR我们提出了一种具有函数逼近和长期平均回报设置的第一个评判者 - 演员算法，并对此方案进行了非渐进（有限时间）分析。我们获得了最佳学习速率，并证明了我们的算法实现了关于演员 - 评判者算法类似设置下，评判者均方误差的样本复杂度能够由一个上界为 ε 的值 ο(ε^-2.08) 来确定，优于演员 - 评判者算法。我们还展示了在三个基准环境上的数值实验结果，并观察到评判者 - 演员算法与演员 - 评判者算法的竞争表现。

Abstract

In recent years, there has been a lot of research work activity focused on carrying out asymptotic and non-asymptotic convergence analyses for two-timescale actor critic algorithms where the actor updates are performed on a timescale that is slower than that of the critic. In a recent

actor critic algorithms convergence analysis infinite horizon discounted cost setting function approximation sample complexity

发现论文，激发创造

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

约束的演员 - 评论家算法和约束的自然演员 - 评论家算法的有限时间分析

通过应用 Lagrange 乘数法，我们对带有不等式约束的 C-MDP 中的 actor critic 和 natural actor critic 算法进行了非渐近分析，并证明这些算法在非独立同分布（Markovian）环境中能够找到性能函数的一阶稳定点，其采样复杂度分别为 ε^{-2.5}（C-AC 算法和 C-NAC 算法）。我们还在几个不同的网格环境中进行了实验，并观察到这两个算法在大网格尺寸上的良好实验结果，受限的自然 actor critic 稍微优于受限的 actor critic，而对于小网格尺寸，后者稍微优于前者。

Oct, 2023

两个时间尺度演员评论家方法的有限时间分析

本文提供了对于两种时间尺度的 Actor-critic 方法进行非渐进分析的研究，证明了该方法可以找到非凸性能函数的一阶稳定点，并提供了样本复杂度的有限时间约束。

May, 2020

单回路（自然） Actor-Critic 与兼容的函数逼近的非渐近分析

该研究提供了 Actor-Critic（AC）算法和 Natural Actor-Critic（NAC）算法的最紧密的非渐近收敛界限，并使用兼容函数逼近进行收敛性分析。

Jun, 2024

两时间尺度（自然）Actor-Critic 算法的非渐进收敛分析

本文提出了第一种具有非渐近收敛率的二次时间尺度演员 - 评论家和自然演员 - 评论家算法的样本复杂度，通过使用新技术对动态变化 Markovian 采样的 actor 偏差误差进行边界估计并分析带有动态变化基函数和转换内核的线性评论家的收敛速率。

May, 2020

完全分散式单时间尺度演员 - 评论家的有限时间分析

本文研究了分散式单时间尺度的演员 - 评论家算法，并利用线性近似展示了其样本复杂度为 $\tilde {\mathcal {O}}(\varepsilon^{-2})$, 与双循环实现相匹配。此外，我们提供了一种本地化的算法及其分析，并通过实验表明了我们的算法优于现有的分散式演员评论家算法。

Jun, 2022

使用线性函数逼近学习无限时间平均回报马尔可夫决策过程

开发多种学习用于 Markov Decision Processes 的无限时间平均奖励设置和线性函数逼近的算法，使用乐观原则和假设 MDP 具有线性结构，提出具有优化的计算效率的算法，并展开了详细的分析，改进了现有最佳结果。

Jul, 2020

线性函数逼近下的离策略自然演员 - 评论家的有限样本分析

本文提出了改进的强化学习算法及其复杂度分析，该算法使用离线学习和线性函数逼近，并使用时间差分学习和自然策略梯度优化，其采样复杂度为 O (ϵ^−3)。

May, 2021

用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法

研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题，并通过协同扰动优化算法及其他方法解决难以优化的问题。最后，论文在交通信号控制应用中展示了算法的实用性。

Mar, 2014

带函数逼近的可证收敛双时标离策略 Actor-Critic 算法

本文提出了第一个可证明收敛的双时间尺度离线策略演员 - 评论家算法（COF-PAC）并引入了一个新的评论家，强调评论家，通过梯度强调学习来训练。通过强调评论家和典型的价值函数评论家的帮助，证明了 COF-PAC 的收敛性，其中批评家是线性的，演员可以是非线性的。

Nov, 2019