改进（自然）Actor-Critic 算法的样本复杂度界限

Apr, 2020

改进（自然）Actor-Critic 算法的样本复杂度界限

Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms

Tengyu Xu, Zhe Wang, Yingbin Liang

TL;DR该研究论文在马可夫采样、小批量数据和通用策略类逼近等条件下，对比了演员 - 评论家算法（AC）和自然演员 - 评论家算法（NAC）的收敛速率和样本复杂度。实验表明在无限时间范围内，AC 和 NAC 可以比策略梯度（PG）和自然策略梯度（NPG）更快地达到精确的稳态点或全局最优点，而且收敛速度比之前的算法更快。

Abstract

The actor-critic (AC) algorithm is a popular method to find an optimal policy in reinforcement learning. In the infinite horizon scenario, the finite-sample convergence rate for the AC and natural actor-critic (N

actor-critic algorithm reinforcement learning convergence rate sample complexity policy optimization

发现论文，激发创造

两时间尺度（自然）Actor-Critic 算法的非渐进收敛分析

本文提出了第一种具有非渐近收敛率的二次时间尺度演员 - 评论家和自然演员 - 评论家算法的样本复杂度，通过使用新技术对动态变化 Markovian 采样的 actor 偏差误差进行边界估计并分析带有动态变化基函数和转换内核的线性评论家的收敛速率。

May, 2020

单回路（自然） Actor-Critic 与兼容的函数逼近的非渐近分析

该研究提供了 Actor-Critic（AC）算法和 Natural Actor-Critic（NAC）算法的最紧密的非渐近收敛界限，并使用兼容函数逼近进行收敛性分析。

Jun, 2024

Off-Policy 自然演员 - 评论算法的有限样本分析

本文介绍一种自然演员 - 评论家算法的有限样本收敛保证，基于重要性采样的离线策略变体，并提出为评论家设计的 $Q$-trace 算法。

Feb, 2021

两个时间尺度演员评论家方法的有限时间分析

本文提供了对于两种时间尺度的 Actor-critic 方法进行非渐进分析的研究，证明了该方法可以找到非凸性能函数的一阶稳定点，并提供了样本复杂度的有限时间约束。

May, 2020

约束的演员 - 评论家算法和约束的自然演员 - 评论家算法的有限时间分析

通过应用 Lagrange 乘数法，我们对带有不等式约束的 C-MDP 中的 actor critic 和 natural actor critic 算法进行了非渐近分析，并证明这些算法在非独立同分布（Markovian）环境中能够找到性能函数的一阶稳定点，其采样复杂度分别为 ε^{-2.5}（C-AC 算法和 C-NAC 算法）。我们还在几个不同的网格环境中进行了实验，并观察到这两个算法在大网格尺寸上的良好实验结果，受限的自然 actor critic 稍微优于受限的 actor critic，而对于小网格尺寸，后者稍微优于前者。

Oct, 2023

两时间尺度自然演员 - 评论家算法的有限样本分析

本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用，提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性，评估其采样轨迹的有效性，并以样本数为单位展开学习效率的分析，为优化全局最优解的搜索提出了提高性能的方法。

Jan, 2021

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

熵正则化神经自然演员 - 评论家算法的有限时间分析

本文针对神经网络近似的 NAC 算法进行了有限时间分析，并指出了神经网络、正则化和优化技术在样本复杂性、迭代复杂性和过度参数化上达到证明良好性能的作用，特别地，我们证明熵正则化和平均化通过提供足够的探索避免了过于确定性和严格次优策略，正则化导致了在正则化 MDPs 中的尖锐样本复杂度和网络宽度，这在策略优化中产生了有利的偏差 - 方差权衡，而在此过程中，我们还发现了在全局优化中实现演员神经网络的均匀逼近能力的重要性，因为其具有分布转移的特征。

Jun, 2022

线性函数逼近下的离策略自然演员 - 评论家的有限样本分析

本文提出了改进的强化学习算法及其复杂度分析，该算法使用离线学习和线性函数逼近，并使用时间差分学习和自然策略梯度优化，其采样复杂度为 O (ϵ^−3)。

May, 2021

基于 Actor-Critic 的不当强化学习

提出了两种基于强化学习的算法，分别是基于策略梯度的方法和基于 actor-critic 的方法，通过在动态环境下优化控制策略，针对一个给定的目标环境，能够在很少的试验次数内生成一个良好的控制器。多个不匹配且可能是模拟环境下学习来的基本控制器，混合并组合使之稳定控制。

Jul, 2022