悲观主体评价缓冲区的验证原因

Mar, 2024

A Case for Validation Buffer in Pessimistic Actor-Critic

Michal Nauman, Mateusz Ostaszewski, Marek Cygan

TL;DR本研究探讨了通过悲观时序差异目标更新的评论家网络中的错误累积问题，并表明评论家逼近误差可以通过类似于贝尔曼值的递归固定点模型进行近似。我们利用这样的递归定义检索出悲观评论家无偏的条件。基于这些发现，我们提出了一种新的学习算法 - 验证悲观学习（VPL）。VPL 使用一个小的验证缓冲区来调整在整个智能体训练过程中的悲观水平，使得评论家目标的逼近误差最小化。我们在各种运动和操纵任务上研究了所提出的方法，并报告了在样本效率和性能方面的改进。

Abstract

In this paper, we investigate the issue of error accumulation in critic networks updated via pessimistic temporal difference objectives. We show that the critic approximation error can be approximated via a recur

error accumulation critic networks pessimistic temporal difference objectives fixed-point model validation pessimism learning

发现论文，激发创造

Actor-Critic 方法在离线强化学习中的可证实益处

提出了一种新的离线演员 - 评论家算法，结合了悲观主义原则，在演员策略的动作价值函数封闭的情况下，具有多个优点，并能够在计算上处理封闭的 Bellman 评估运算符。

Aug, 2021

Actor-Critic 方法中的函数逼近误差处理

该研究提出了一种基于 Double Q-learning 的算法来处理深度 Q-learning 和 actor-critic 算法中出现的过高估计的问题，在 OpenAI Gym 的测试中，该算法表现出优异的性能。

Feb, 2018

深度强化学习中的战术乐观主义和悲观主义

该研究展示了最有效的乐观程度可以随着任务和学习过程的不同而异。启发于这一点，研究人员引入了一种新的深度演员 - 评论员框架，Tactical Optimistic and Pessimistic (TOP) 评估，它在线切换乐观和悲观的价值学习，并在解决像素环境的连续控制任务中创造了新的最优状态。

Feb, 2021

深度强化学习的自适应校准评论家评估

提出了一种称为适应性校准评论家 (ACC) 的方法，并将其应用于 Truncated Quantile Critics 中，实现了自适应调整参数，从而消除了低方差时间差分目标的偏差，并在 OpenAI gym 连续控制基准测试中取得了新的最佳成绩。

Nov, 2021

乐观演员 - 评论家算法实现更好的探索

本论文提出了一种新的强化学习算法 —— 乐观的 Actor-Critic 方法 (OAC)，通过在状态动作值函数上近似上限和下限的置信区间，实现了在探索性上的乐观及方向性采样，从而提高了算法对连续控制任务的采样效率。

Oct, 2019

离线强化学习的 Bellman 一致悲观算法

本文介绍了一种 Bellman-consistent 的悲观算法，在深度学习的数据集中使用较为普遍，通过对探索性场景的标准 Bellman 闭合性理论保证了算法的鲁棒性，并且在样本复杂度上比其他算法有显著提高。

Jun, 2021

深度强化学习中的悲观和乐观动态探索

通过利用悲观的状态 - 动作值函数更新，以及通过可解释参数独立控制悲观 / 乐观程度，Utility Soft Actor-Critic (USAC) 在离策略演员 - 评论家算法中实现了平衡，可以根据任务的性质，在恰当配置的悲观 / 乐观参数情况下胜过现有算法。

Jun, 2024

模型增强的 Actor-Critic 算法：透过路径反向传播

本文介绍了一种新的基于模型的强化学习算法，通过利用学习到的模型和策略经过多个时间步长的路径导数来构建策略优化算法，同时通过学习一个演员评论家，使用终端值函数避免了通过多个时间步长的不稳定性。结果显示，该方法比现有的最先进的基于模型的算法在样本效率上更为一致，并且与基于模型的算法达到了基于模型的算法无法达到的渐近性能，而且具有可扩展性。

May, 2020

解耦的 Actor-Critic

我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和高回放比例的情况下，并结合了多个设计选择，取得了最新的表现和样本效率。

Oct, 2023

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019