强化学习中一步正则化与评论员正则化之间的联系

ICMLJul, 2023

强化学习中一步正则化与评论员正则化之间的联系

A Connection between One-Step Regularization and Critic Regularization in Reinforcement Learning

Benjamin Eysenbach, Matthieu Geist, Sergey Levine, Ruslan Salakhutdinov

TL;DR该研究论文介绍了离线强化学习中的正则化方法，探讨了一步方法和评论家正则化方法之间的联系，并表明在需要强正则化的强化学习问题上，一步方法可能与评论家正则化方法具有竞争力。

Abstract

As with any machine learning problem with limited data, effective offline rl algorithms require careful regularization to avoid overfitting. One-step methods perform →

offline rl regularization one-step methods critic regularization policy improvement

发现论文，激发创造

批评正则化回归

本文提出了一种基于评价器正则化回归算法（CRR）的新型离线强化学习算法，它能够在高维状态和动作空间下解决固定数据集的离线学习问题，在广泛的基准任务上表现出优越性能。

Jun, 2020

强化学习的苦涩教训：行动者 - 评论家中的高估、过拟合和可塑性

通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体，并结合最新的正则化技术，我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。

Mar, 2024

无需离线策略评估的离线强化学习

本文探讨了离线强化学习领域中的一个策略改进方法，使用 on-policy Q 估计的行为策略，通过一步有限制 / 正则化的策略改进，能在 D4RL 基准测试中表现优于迭代算法。我们认为，迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。

Jun, 2021

行为规范化的离线强化学习

该研究针对强化学习中现实世界应用的局限性，提出了一种 BRAC 的方法，并通过多个离线 RL 任务的实验，发现许多技术上的复杂性是不必要的。

Nov, 2019

TD 正则化的 Actor-Critic 方法

本文介绍了一种名为 TD 正则化 actor-critic 方法的算法，它可以通过对演员学习目标进行正则化来改善算法的稳定性，并取得更好的性能表现。

Dec, 2018

策略优化中的正则化问题

通过深度强化学习的控制任务，对传统正则化技术在多种优化算法中的应用及效果进行综合研究，发现传统的正则化技术能够改善学习效果，特别在较难的任务中，说明正则化有助于强化学习中的泛化表现。

Oct, 2019

牛顿 - 拉夫逊方法与正则化策略迭代之间的桥梁

通过使用具有强凸函数的 Bellman 方程的平滑方法证明了正则化策略迭代算法与标准 Newton-Raphson 方法严格等价，并证明了正则化策略迭代具有全局线性收敛性和局部二次收敛性，以及有限步策略评估版本等价于不精确的 Newton 方法。

Oct, 2023

高效离线强化学习：批评者至关重要

最近的研究表明，在离线强化学习中使用有监督方法（不使用时序差分学习）既有益处又有局限性。本文提出了一种取长补短的方法，首先通过有监督学习来学习行为策略和评论家，然后再通过离线强化学习进行改进。具体而言，我们通过使用常被忽视的提供的离线轨迹中的下游信息，通过有监督的蒙特卡洛值误差预训练，提高了效率。我们发现在标准基准测试中，我们能够将考虑的离线算法的训练时间减少一半以上，并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性，提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC，对行为策略和评论家进行正则化，更可靠地改进行为策略。代码可在此 URL 找到。

Jun, 2024

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

离策演员 - 评论家

本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题，在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时，能够灵活地运用 policy 设计，具有较强的学习潜力和泛化性能，并能收敛至较好的算法性能。

May, 2012