两个时间尺度演员评论家方法的有限时间分析

May, 2020

两个时间尺度演员评论家方法的有限时间分析

A Finite Time Analysis of Two Time-Scale Actor Critic Methods

Yue Wu, Weitong Zhang, Pan Xu, Quanquan Gu

TL;DR本文提供了对于两种时间尺度的 Actor-critic 方法进行非渐进分析的研究，证明了该方法可以找到非凸性能函数的一阶稳定点，并提供了样本复杂度的有限时间约束。

Abstract

actor-critic (AC) methods have exhibited great empirical success compared with other reinforcement learning algorithms, where the actor uses the policy gradient to improve the learning policy and the critic uses

actor-critic reinforcement learning policy gradient sample complexity finite-time analysis

发现论文，激发创造

两时间尺度（自然）Actor-Critic 算法的非渐进收敛分析

本文提出了第一种具有非渐近收敛率的二次时间尺度演员 - 评论家和自然演员 - 评论家算法的样本复杂度，通过使用新技术对动态变化 Markovian 采样的 actor 偏差误差进行边界估计并分析带有动态变化基函数和转换内核的线性评论家的收敛速率。

May, 2020

两时间尺度自然演员 - 评论家算法的有限样本分析

本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用，提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性，评估其采样轨迹的有效性，并以样本数为单位展开学习效率的分析，为优化全局最优解的搜索提出了提高性能的方法。

Jan, 2021

单回路（自然） Actor-Critic 与兼容的函数逼近的非渐近分析

该研究提供了 Actor-Critic（AC）算法和 Natural Actor-Critic（NAC）算法的最紧密的非渐近收敛界限，并使用兼容函数逼近进行收敛性分析。

Jun, 2024

完全分散式单时间尺度演员 - 评论家的有限时间分析

本文研究了分散式单时间尺度的演员 - 评论家算法，并利用线性近似展示了其样本复杂度为 $\tilde {\mathcal {O}}(\varepsilon^{-2})$, 与双循环实现相匹配。此外，我们提供了一种本地化的算法及其分析，并通过实验表明了我们的算法优于现有的分散式演员评论家算法。

Jun, 2022

改进（自然）Actor-Critic 算法的样本复杂度界限

该研究论文在马可夫采样、小批量数据和通用策略类逼近等条件下，对比了演员 - 评论家算法（AC）和自然演员 - 评论家算法（NAC）的收敛速率和样本复杂度。实验表明在无限时间范围内，AC 和 NAC 可以比策略梯度（PG）和自然策略梯度（NPG）更快地达到精确的稳态点或全局最优点，而且收敛速度比之前的算法更快。

Apr, 2020

有限时间分析下的平均奖励 MDP 函数逼近中的 Critic-Actor

我们提出了一种具有函数逼近和长期平均回报设置的第一个评判者 - 演员算法，并对此方案进行了非渐进（有限时间）分析。我们获得了最佳学习速率，并证明了我们的算法实现了关于演员 - 评判者算法类似设置下，评判者均方误差的样本复杂度能够由一个上界为 ε 的值 ο(ε^-2.08) 来确定，优于演员 - 评判者算法。我们还展示了在三个基准环境上的数值实验结果，并观察到评判者 - 演员算法与演员 - 评判者算法的竞争表现。

Feb, 2024

约束的演员 - 评论家算法和约束的自然演员 - 评论家算法的有限时间分析

通过应用 Lagrange 乘数法，我们对带有不等式约束的 C-MDP 中的 actor critic 和 natural actor critic 算法进行了非渐近分析，并证明这些算法在非独立同分布（Markovian）环境中能够找到性能函数的一阶稳定点，其采样复杂度分别为 ε^{-2.5}（C-AC 算法和 C-NAC 算法）。我们还在几个不同的网格环境中进行了实验，并观察到这两个算法在大网格尺寸上的良好实验结果，受限的自然 actor critic 稍微优于受限的 actor critic，而对于小网格尺寸，后者稍微优于前者。

Oct, 2023

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

单时间尺度演员 - 评论家算法可证明找到全局最优策略

本研究主要研究了强化学习中最受欢迎的 Actor-Critic 算法的全局收敛性和全局最优性。作者在单时间尺度上进行更新，其中演员和评论家同时更新。研究结果表明，均使用线性或深度神经网络时，演员序列以 $O (K^{-1/2})$ 的次线性速率收敛于全局最优策略，尤其是当使用深度神经网络时，该算法首次找到非线性函数逼近情况下的全局最优策略。

Aug, 2020

一种收敛的在线单时间尺度演员评论家算法

介绍一种基于 Actor-Critic 的在线时序差异算法，用于评估值函数以及更新参数，且可以实现对平均奖励的局部最大值的收敛，为构建更真实的强化学习神经科学模型提供了可能性。

Sep, 2009