强化学习的苦涩教训：行动者 - 评论家中的高估、过拟合和可塑性

Mar, 2024

强化学习的苦涩教训：行动者 - 评论家中的高估、过拟合和可塑性

Overestimation, Overfitting, and Plasticity in Actor-Critic: the Bitter Lesson of Reinforcement Learning

Michal Nauman, Michał Bortkiewicz, Mateusz Ostaszewski, Piotr Miłoś, Tomasz Trzciński...

TL;DR通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体，并结合最新的正则化技术，我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。

Abstract

Recent advancements in off-policy reinforcement learning (RL) have significantly improved sample efficiency, primarily due to the incorporation of various forms of regularization that enable more gradient update steps than traditional agents. However, many of these techniques have been

off-policy reinforcement learning regularization techniques state-of-the-art algorithms simulation benchmarks soft actor-critic agent

发现论文，激发创造

批评正则化回归

本文提出了一种基于评价器正则化回归算法（CRR）的新型离线强化学习算法，它能够在高维状态和动作空间下解决固定数据集的离线学习问题，在广泛的基准任务上表现出优越性能。

Jun, 2020

行为规范化的离线强化学习

该研究针对强化学习中现实世界应用的局限性，提出了一种 BRAC 的方法，并通过多个离线 RL 任务的实验，发现许多技术上的复杂性是不必要的。

Nov, 2019

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

强化学习中一步正则化与评论员正则化之间的联系

该研究论文介绍了离线强化学习中的正则化方法，探讨了一步方法和评论家正则化方法之间的联系，并表明在需要强正则化的强化学习问题上，一步方法可能与评论家正则化方法具有竞争力。

Jul, 2023

软最大熵深度强化学习中的 Stochastic Actor-Critic 算法

本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法，该算法通过离策略更新和稳定的随机演员 - 评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

深度强化学习中过拟合的研究

本论文对深度强化学习的过拟合现象进行了系统研究，发现过拟合可能会以不同方式发生，并且常用的随机性技术不一定能有效检测或预防过拟合，因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。

Apr, 2018

模型驱动的强化学习中规划器过拟合问题的缓解

探索一种中间立场，通过对其考虑的计划进行一种正则化来避免过度拟合，该论文提出了三种不同的方法，可在强化学习环境下明显缓解计划器过度拟合。

Dec, 2018

离线演员 - 评论家强化学习在大规模模型中的扩展

离线演员 - 评论家强化学习能够扩展到大规模模型（如变压器）并遵循监督学习的相似扩展规律。我们发现，离线演员 - 评论家算法在 132 个连续控制任务的大型数据集上的多任务训练中，能够优于强大的监督式行为克隆基线。我们引入了一种基于感知机的离线演员 - 评论家模型，并阐明了使离线强化学习与自注意力和跨注意力模块配合工作的关键模型特征。总体而言，我们发现：i）简单的离线演员评论家算法是逐渐摆脱当前主导的行为克隆范式的自然选择，ii）通过离线强化学习，可以从次优示范或自生成数据中学习掌握多个领域的多任务策略，包括真实的机器人任务。

Feb, 2024

TD 正则化的 Actor-Critic 方法

本文介绍了一种名为 TD 正则化 actor-critic 方法的算法，它可以通过对演员学习目标进行正则化来改善算法的稳定性，并取得更好的性能表现。

Dec, 2018