状态分布不匹配下 Softmax 离策略演员 - 评论家的全局最优性和有限样本分析

Nov, 2021

状态分布不匹配下 Softmax 离策略演员 - 评论家的全局最优性和有限样本分析

Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch

Shangtong Zhang, Remi Tachet, Romain Laroche

TL;DR本文研究离线策略演员 - 评论家算法的全局最优性和收敛速度，通过使用近似和随机更新步骤，避免了稀疏性带来的问题，并且在文中基于均匀收缩性质，去掉相关分析的限制条件。

Abstract

In this paper, we establish the global optimality and convergence rate of an off-policy actor critic algorithm in the tabular setting with

off-policy actor critic algorithm global optimality convergence rate policy gradient methods stochastic update step

发现论文，激发创造

带状态分布修正的离策略策略梯度

该研究针对 Markov 决策过程中的离策略策略优化问题，开发了一种新颖的离策略策略梯度方法，解决了基于之前行为策略采集数据的状态分布与学习策略下的状态分布不匹配的问题，并提供了该方法的理论收敛保证和实验验证。

Apr, 2019

基于离线训练和函数近似的收敛演员 - 评论家算法

我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法，保证在离线学习下收敛，解决了动作表示问题带来的高维 “诅咒” 问题，这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来，能够保持所有经典 Actor-Critic 方法的优点，并且在功能逼近方面被证明是可收敛的。

Feb, 2018

双重稳健离线演员 - 评论家算法：收敛和最优性

本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC，通过利用已学习的干扰函数来降低估计误差并减少采样复杂度，同时采用单时间尺度结构，可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛，并且通过分析样本复杂度证明了算法渐进的收敛速率。

Feb, 2021

单时间尺度演员 - 评论家算法可证明找到全局最优策略

本研究主要研究了强化学习中最受欢迎的 Actor-Critic 算法的全局收敛性和全局最优性。作者在单时间尺度上进行更新，其中演员和评论家同时更新。研究结果表明，均使用线性或深度神经网络时，演员序列以 $O (K^{-1/2})$ 的次线性速率收敛于全局最优策略，尤其是当使用深度神经网络时，该算法首次找到非线性函数逼近情况下的全局最优策略。

Aug, 2020

线性函数逼近下的离策略自然演员 - 评论家的有限样本分析

本文提出了改进的强化学习算法及其复杂度分析，该算法使用离线学习和线性函数逼近，并使用时间差分学习和自然策略梯度优化，其采样复杂度为 O (ϵ^−3)。

May, 2021

软最大熵深度强化学习中的 Stochastic Actor-Critic 算法

本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法，该算法通过离策略更新和稳定的随机演员 - 评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

两时间尺度自然演员 - 评论家算法的有限样本分析

本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用，提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性，评估其采样轨迹的有效性，并以样本数为单位展开学习效率的分析，为优化全局最优解的搜索提出了提高性能的方法。

Jan, 2021

超越稳态：随机 Softmax 策略梯度方法的收敛分析

这篇论文介绍了一种结合动态规划和策略梯度的方法，称为动态策略梯度，其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析，我们发现动态策略梯度训练更好地利用了有限时间问题的结构，这反映在改进的收敛界限上。

Oct, 2023

Off-Policy 自然演员 - 评论算法的有限样本分析

本文介绍一种自然演员 - 评论家算法的有限样本收敛保证，基于重要性采样的离线策略变体，并提出为评论家设计的 $Q$-trace 算法。

Feb, 2021

线性函数逼近下的最小化最优离线策略评估

本文研究利用函数逼近的批量数据强化学习的统计理论，针对离线策略评估问题提出了基于回归的适应 Q 迭代方法，证明该方法是信息理论上的最优方法，错误估计接近最小，进而提供容易计算的置信区间，该方法在乐观规划和安全策略改进中可能有用

Feb, 2020