TD 正则化的 Actor-Critic 方法

Dec, 2018

TD-Regularized Actor-Critic Methods

Simone Parisi, Voot Tangkaratt, Jan Peters, Mohammad Emtiyaz Khan

TL;DR本文介绍了一种名为 TD 正则化 actor-critic 方法的算法，它可以通过对演员学习目标进行正则化来改善算法的稳定性，并取得更好的性能表现。

Abstract

actor-critic methods can achieve incredible performance on difficult reinforcement learning problems, but they are also prone to instabili

actor-critic reinforcement learning regularization td error performance

发现论文，激发创造

通过双 TD 正则化的演员和评论家来减轻深度强化学习中的估计错误

深度强化学习中的估计偏差问题以及引入的解决机制，包括新的双 TD 规范化的演员 - 评论家（TDR）方法，通过结合分布学习、长 N 步替代阶段奖励（LNSS）方法等 DRL 改进，我们展示了基于 TDR 的演员 - 评论家学习使得 DRL 方法在 DeepMind Control Suite 中能够超越其基线，在挑战性环境中显著提升了 TD3 和 SAC 的性能，使其与 D4PG（当前领先算法）性能媲美，并且还通过平均奖励、收敛速度、学习成功率和学习方差等指标改善了 D4PG 的性能，达到了新的领先水平。

Nov, 2023

具有正则化修正的梯度时序差分学习

介绍了一种新的 TD 方法 ——TDRC，它在易用性、正确性和性能之间平衡，在 TD 表现良好时，表现与 TD 相当，并且在 TD 发散时保持正确性。

Jul, 2020

强化学习的苦涩教训：行动者 - 评论家中的高估、过拟合和可塑性

通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体，并结合最新的正则化技术，我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。

Mar, 2024

面向重尾奖励的可证明鲁棒时序差分学习

本文探讨了强化学习中，奖励分布呈现重尾分布时，采用动态梯度裁剪机制的 TD 学习和 NAC 方法能够应对此类问题，论证了采用动态梯度裁剪机制的 TD 学习可在偏置和随机梯度变化之间实现有利的权衡，对于一些 p（0<p<=1），都以期望和高的概率下 finie moment（1+p）的重尾收益实现样本复杂度，同时 Robust TD 学习具有相同的特征。

Jun, 2023

解耦的 Actor-Critic

我们提出了一种名为 Decoupled Actor-Critic（DAC）的离策略算法，通过梯度反向传播学习两个不同的演员：一个保守的演员用于时序差分学习，一个乐观的演员用于探索。在 DeepMind Control 任务中，DAC 在低和高回放比例的情况下，并结合了多个设计选择，取得了最新的表现和样本效率。

Oct, 2023

一种收敛的在线单时间尺度演员评论家算法

介绍一种基于 Actor-Critic 的在线时序差异算法，用于评估值函数以及更新参数，且可以实现对平均奖励的局部最大值的收敛，为构建更真实的强化学习神经科学模型提供了可能性。

Sep, 2009

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

高效离线强化学习：批评者至关重要

最近的研究表明，在离线强化学习中使用有监督方法（不使用时序差分学习）既有益处又有局限性。本文提出了一种取长补短的方法，首先通过有监督学习来学习行为策略和评论家，然后再通过离线强化学习进行改进。具体而言，我们通过使用常被忽视的提供的离线轨迹中的下游信息，通过有监督的蒙特卡洛值误差预训练，提高了效率。我们发现在标准基准测试中，我们能够将考虑的离线算法的训练时间减少一半以上，并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性，提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC，对行为策略和评论家进行正则化，更可靠地改进行为策略。代码可在此 URL 找到。

Jun, 2024

带稳定性保证的演员 - 评论家强化学习控制

使用经典控制理论中的 Lyapunov 方法，为控制系统提供稳定性保证的 actor-critic RL 框架，确保在一定程度的不确定性干扰下，学习到的策略使得系统能够恢复到平衡或航点。

Apr, 2020

深度强化学习的自适应校准评论家评估

提出了一种称为适应性校准评论家 (ACC) 的方法，并将其应用于 Truncated Quantile Critics 中，实现了自适应调整参数，从而消除了低方差时间差分目标的偏差，并在 OpenAI gym 连续控制基准测试中取得了新的最佳成绩。

Nov, 2021