Off-Policy 自然演员 - 评论算法的有限样本分析

Feb, 2021

Off-Policy 自然演员 - 评论算法的有限样本分析

Finite-Sample Analysis of Off-Policy Natural Actor-Critic Algorithm

Sajad Khodadadian, Zaiwei Chen, Siva Theja Maguluri

TL;DR本文介绍一种自然演员 - 评论家算法的有限样本收敛保证，基于重要性采样的离线策略变体，并提出为评论家设计的 $Q$-trace 算法。

Abstract

In this paper, we provide finite-sample convergence guarantees for an off-policy variant of the natural actor-critic (NAC) algorithm based on imp

natural actor-critic importance sampling finite-sample convergence $q$-trace algorithm off-policy sampling

发现论文，激发创造

改进（自然）Actor-Critic 算法的样本复杂度界限

该研究论文在马可夫采样、小批量数据和通用策略类逼近等条件下，对比了演员 - 评论家算法（AC）和自然演员 - 评论家算法（NAC）的收敛速率和样本复杂度。实验表明在无限时间范围内，AC 和 NAC 可以比策略梯度（PG）和自然策略梯度（NPG）更快地达到精确的稳态点或全局最优点，而且收敛速度比之前的算法更快。

Apr, 2020

线性函数逼近下的离策略自然演员 - 评论家的有限样本分析

本文提出了改进的强化学习算法及其复杂度分析，该算法使用离线学习和线性函数逼近，并使用时间差分学习和自然策略梯度优化，其采样复杂度为 O (ϵ^−3)。

May, 2021

两时间尺度自然演员 - 评论家算法的有限样本分析

本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用，提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性，评估其采样轨迹的有效性，并以样本数为单位展开学习效率的分析，为优化全局最优解的搜索提出了提高性能的方法。

Jan, 2021

两时间尺度（自然）Actor-Critic 算法的非渐进收敛分析

本文提出了第一种具有非渐近收敛率的二次时间尺度演员 - 评论家和自然演员 - 评论家算法的样本复杂度，通过使用新技术对动态变化 Markovian 采样的 actor 偏差误差进行边界估计并分析带有动态变化基函数和转换内核的线性评论家的收敛速率。

May, 2020

熵正则化神经自然演员 - 评论家算法的有限时间分析

本文针对神经网络近似的 NAC 算法进行了有限时间分析，并指出了神经网络、正则化和优化技术在样本复杂性、迭代复杂性和过度参数化上达到证明良好性能的作用，特别地，我们证明熵正则化和平均化通过提供足够的探索避免了过于确定性和严格次优策略，正则化导致了在正则化 MDPs 中的尖锐样本复杂度和网络宽度，这在策略优化中产生了有利的偏差 - 方差权衡，而在此过程中，我们还发现了在全局优化中实现演员神经网络的均匀逼近能力的重要性，因为其具有分布转移的特征。

Jun, 2022

关于自然演员 - 评论家算法与双层神经网络参数化的全局收敛

本文探讨利用神经网络代表评论家的自然演员评论算法的研究，并建议了一种涉及通过凸优化问题估计每个迭代中的 Q 函数的 2 层评论家参数化的自然演员评论算法，证明了我们提出的方法达到了样本复杂度的～O (1 / (ε^4 (1-γ)^4))，适用于可数状态空间，不需要线性或低秩结构的 MDP。

Jun, 2023

单回路（自然） Actor-Critic 与兼容的函数逼近的非渐近分析

该研究提供了 Actor-Critic（AC）算法和 Natural Actor-Critic（NAC）算法的最紧密的非渐近收敛界限，并使用兼容函数逼近进行收敛性分析。

Jun, 2024

两个时间尺度演员评论家方法的有限时间分析

本文提供了对于两种时间尺度的 Actor-critic 方法进行非渐进分析的研究，证明了该方法可以找到非凸性能函数的一阶稳定点，并提供了样本复杂度的有限时间约束。

May, 2020

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019