单时间尺度演员 - 评论家算法可证明找到全局最优策略

Aug, 2020

单时间尺度演员 - 评论家算法可证明找到全局最优策略

Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy

Zuyue Fu, Zhuoran Yang, Zhaoran Wang

TL;DR本研究主要研究了强化学习中最受欢迎的 Actor-Critic 算法的全局收敛性和全局最优性。作者在单时间尺度上进行更新，其中演员和评论家同时更新。研究结果表明，均使用线性或深度神经网络时，演员序列以 $O (K^{-1/2})$ 的次线性速率收敛于全局最优策略，尤其是当使用深度神经网络时，该算法首次找到非线性函数逼近情况下的全局最优策略。

Abstract

We study the global convergence and global optimality of actor-critic, one of the most popular families of reinforcement learning algorith

reinforcement learning actor-critic algorithm global convergence global optimality function approximation

发现论文，激发创造

两时间尺度自然演员 - 评论家算法的有限样本分析

本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用，提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性，评估其采样轨迹的有效性，并以样本数为单位展开学习效率的分析，为优化全局最优解的搜索提出了提高性能的方法。

Jan, 2021

完全分散式单时间尺度演员 - 评论家的有限时间分析

本文研究了分散式单时间尺度的演员 - 评论家算法，并利用线性近似展示了其样本复杂度为 $\tilde {\mathcal {O}}(\varepsilon^{-2})$, 与双循环实现相匹配。此外，我们提供了一种本地化的算法及其分析，并通过实验表明了我们的算法优于现有的分散式演员评论家算法。

Jun, 2022

关于 Actor-Critic 的全局收敛性：线性二次调节器具有遍历成本

研究了基于 actor-critic 算法的在线交替更新算法在双层优化问题中的应用，证明了该算法在线性二次型调节器中的全局最优对 actor 和 critic 的线性收敛率

Jul, 2019

一种收敛的在线单时间尺度演员评论家算法

介绍一种基于 Actor-Critic 的在线时序差异算法，用于评估值函数以及更新参数，且可以实现对平均奖励的局部最大值的收敛，为构建更真实的强化学习神经科学模型提供了可能性。

Sep, 2009

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

两个时间尺度演员评论家方法的有限时间分析

本文提供了对于两种时间尺度的 Actor-critic 方法进行非渐进分析的研究，证明了该方法可以找到非凸性能函数的一阶稳定点，并提供了样本复杂度的有限时间约束。

May, 2020

神经策略梯度方法：全局最优性和收敛速率

本文介绍了使用神经网络参数化的演员评论家的政策梯度方法，证明了在超参数化范围内，神经自然策略梯度以亚线性速率收敛到全局最优策略，并且神经普通策略梯度以亚线性速率收敛到稳态点。同时证明了共享神经结构和随机初始化是全局最优解和收敛的关键。该分析为神经策略梯度方法的全局最优性和收敛性提供了第一个保证。

Aug, 2019

两时间尺度（自然）Actor-Critic 算法的非渐进收敛分析

本文提出了第一种具有非渐近收敛率的二次时间尺度演员 - 评论家和自然演员 - 评论家算法的样本复杂度，通过使用新技术对动态变化 Markovian 采样的 actor 偏差误差进行边界估计并分析带有动态变化基函数和转换内核的线性评论家的收敛速率。

May, 2020

单回路（自然） Actor-Critic 与兼容的函数逼近的非渐近分析

该研究提供了 Actor-Critic（AC）算法和 Natural Actor-Critic（NAC）算法的最紧密的非渐近收敛界限，并使用兼容函数逼近进行收敛性分析。

Jun, 2024

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018