线性函数逼近下的离策略自然演员 - 评论家的有限样本分析

May, 2021

线性函数逼近下的离策略自然演员 - 评论家的有限样本分析

Finite-Sample Analysis of Off-Policy Natural Actor-Critic with Linear Function Approximation

Zaiwei Chen, Sajad Khodadadian, Siva Theja Maguluri

TL;DR本文提出了改进的强化学习算法及其复杂度分析，该算法使用离线学习和线性函数逼近，并使用时间差分学习和自然策略梯度优化，其采样复杂度为 O (ϵ^−3)。

Abstract

In this paper, we develop a novel variant of off-policy natural actor-critic algorithm with linear function approximation and we establish a sample complexity of $\mathcal{O}(\epsilon^{-3})$, outperforming all the previously known convergence bounds of such algorithms. In order to over

off-policy natural actor-critic algorithm linear function approximation sample complexity td-learning algorithm natural policy gradient

发现论文，激发创造

Off-Policy 自然演员 - 评论算法的有限样本分析

本文介绍一种自然演员 - 评论家算法的有限样本收敛保证，基于重要性采样的离线策略变体，并提出为评论家设计的 $Q$-trace 算法。

Feb, 2021

单回路（自然） Actor-Critic 与兼容的函数逼近的非渐近分析

该研究提供了 Actor-Critic（AC）算法和 Natural Actor-Critic（NAC）算法的最紧密的非渐近收敛界限，并使用兼容函数逼近进行收敛性分析。

Jun, 2024

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

两时间尺度自然演员 - 评论家算法的有限样本分析

本文旨在探究 Actor-critic 风格的两个时间尺度算法在强化学习中的应用，提出了一种在线自然 Actor-critic 算法在表格环境下的全局收敛特性，评估其采样轨迹的有效性，并以样本数为单位展开学习效率的分析，为优化全局最优解的搜索提出了提高性能的方法。

Jan, 2021

改进（自然）Actor-Critic 算法的样本复杂度界限

该研究论文在马可夫采样、小批量数据和通用策略类逼近等条件下，对比了演员 - 评论家算法（AC）和自然演员 - 评论家算法（NAC）的收敛速率和样本复杂度。实验表明在无限时间范围内，AC 和 NAC 可以比策略梯度（PG）和自然策略梯度（NPG）更快地达到精确的稳态点或全局最优点，而且收敛速度比之前的算法更快。

Apr, 2020

使用线性函数逼近进行策略评估的高概率样本复杂度

本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题，研究两种广泛使用的政策评估算法（TD 和 TDC）最佳线性系数的预估误差所需的样本复杂度，提出了一个高可靠性收敛保证的样本复杂度上界，并且在策略内和策略外设置中都达到了最优容差级别依赖，同时，通过显示与问题相关的量，表明在策略内设置中，我们的上界与关键问题参数的 Minimax 下界相匹配，包括特征映射的选择和问题维数。

May, 2023

基于离线训练和函数近似的收敛演员 - 评论家算法

我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法，保证在离线学习下收敛，解决了动作表示问题带来的高维 “诅咒” 问题，这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来，能够保持所有经典 Actor-Critic 方法的优点，并且在功能逼近方面被证明是可收敛的。

Feb, 2018

线性函数逼近的离策多步 TD 学习分析

本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法，并证明了当采样周期 n 足够大时，n 步 TD 学习算法收敛到一个解。基于这些发现，提出并分析了两种 n 步 TD 学习算法，这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。

Feb, 2024

线性函数逼近下的最小化最优离线策略评估

本文研究利用函数逼近的批量数据强化学习的统计理论，针对离线策略评估问题提出了基于回归的适应 Q 迭代方法，证明该方法是信息理论上的最优方法，错误估计接近最小，进而提供容易计算的置信区间，该方法在乐观规划和安全策略改进中可能有用

Feb, 2020

有限时间分析下的平均奖励 MDP 函数逼近中的 Critic-Actor

我们提出了一种具有函数逼近和长期平均回报设置的第一个评判者 - 演员算法，并对此方案进行了非渐进（有限时间）分析。我们获得了最佳学习速率，并证明了我们的算法实现了关于演员 - 评判者算法类似设置下，评判者均方误差的样本复杂度能够由一个上界为 ε 的值 ο(ε^-2.08) 来确定，优于演员 - 评判者算法。我们还展示了在三个基准环境上的数值实验结果，并观察到评判者 - 演员算法与演员 - 评判者算法的竞争表现。

Feb, 2024