方差调整演员 - 评论家算法 | BriefGPT

Oct, 2013

方差调整演员 - 评论家算法

Variance Adjusted Actor Critic Algorithms

Aviv Tamar, Shie Mannor

TL;DR本文提出了一个基于演员 - 评论家的框架，针对 MDPs，旨在实现方差调整的期望回报，其中评论家使用线性函数逼近，并将兼容特征的概念扩展到方差调整设置中，并提出了一种分集演员 - 评论家算法，并证明其几乎一定收敛于目标函数的局部最优点。

Abstract

We present an actor-critic framework for mdps where the objective is the variance-adjusted expected return. Our critic uses linear function approximation, and we extend the concept of →

actor-critic mdps linear function approximation compatible features episodic algorithm

发现论文，激发创造

用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法

研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题，并通过协同扰动优化算法及其他方法解决难以优化的问题。最后，论文在交通信号控制应用中展示了算法的实用性。

Mar, 2014

方差惩罚的在线与离线行为者 - 评论家算法

本研究提出了基于策略梯度方法的强化学习算法，通过对回报的方差进行惩罚，保证了算法的效果可靠，并在标准测试环境下展示了相应结果。

Feb, 2021

具备函数逼近和理论保证的决策感知演员 - 评论家算法

我们设计了一个决策感知的联合目标来训练演员和评论家，以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题，并提出了一个通用的 Actor-critic 算法来处理任何函数逼近，在一些简单的赌博机示例中，我们证明了提出的评论家目标的好处。最后，我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。

May, 2023

有限时间分析下的平均奖励 MDP 函数逼近中的 Critic-Actor

我们提出了一种具有函数逼近和长期平均回报设置的第一个评判者 - 演员算法，并对此方案进行了非渐进（有限时间）分析。我们获得了最佳学习速率，并证明了我们的算法实现了关于演员 - 评判者算法类似设置下，评判者均方误差的样本复杂度能够由一个上界为 ε 的值 ο(ε^-2.08) 来确定，优于演员 - 评判者算法。我们还展示了在三个基准环境上的数值实验结果，并观察到评判者 - 演员算法与演员 - 评判者算法的竞争表现。

Feb, 2024

基于离线训练和函数近似的收敛演员 - 评论家算法

我们提出了第一种同时适用于状态值和策略函数逼近的政策梯度算法，保证在离线学习下收敛，解决了动作表示问题带来的高维 “诅咒” 问题，这些算法是基于基于平均状态值函数目标的渐变高演员 - 评论家和强调梯度的高演员 - 评论家推导而来，能够保持所有经典 Actor-Critic 方法的优点，并且在功能逼近方面被证明是可收敛的。

Feb, 2018

在 MDPs 中进行 CVaR 优化的算法

本文研究在马尔可夫决策过程中的均值 - CVaR 优化问题，并提出了策略梯度和演员评论算法，以在局部风险敏感的最优策略中更新策略参数，解决了一个最优停止问题。

Jun, 2014

均值演员 - 评论家

提出了一种新的算法 Mean Actor-Critic（MAC）用于离散动作连续状态强化学习，该算法使用代理的所有动作值的显式表示来估计策略的梯度，证明这种方法相对于传统的 Actor-Critic 方法减少了策略梯度估计中的方差，并在两个控制域和六个 Atari 游戏上展示了与最先进的策略搜索算法的竞争力。

Sep, 2017

利用残差方差在深度策略梯度中学习价值函数

提供了一种新的方法来训练演员 - 评论家框架中的评论家，使用新的状态 - 值函数逼近，并相对于平均值学习状态（响应地状态 - 动作对）的值，而非如传统的演员 - 评论家算法所学习的绝对值，这种方法证明了其在各种连续控制任务和算法中具有理论上的一致性和实证改进，特别是在奖励稀疏的任务中。

Oct, 2020

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

价值改进的演员评论算法

通过在策略和价值中分别应用改进算子，本研究提出了一种对演员 - 评论家（AC）框架的通用扩展，命名为 Value-Improved AC (VI-AC)，并设计了 VI-TD3 和 VI-DDPG 两个实际算法，在 Mujoco 基准测试中发现在所有环境中它们都能改进现有基准算法的性能或与其持平。

Jun, 2024