高效离线强化学习：批评者至关重要

Jun, 2024

高效离线强化学习：批评者至关重要

Efficient Offline Reinforcement Learning: The Critic is Critical

Adam Jelley, Trevor McInroe, Sam Devlin, Amos Storkey

TL;DR最近的研究表明，在离线强化学习中使用有监督方法（不使用时序差分学习）既有益处又有局限性。本文提出了一种取长补短的方法，首先通过有监督学习来学习行为策略和评论家，然后再通过离线强化学习进行改进。具体而言，我们通过使用常被忽视的提供的离线轨迹中的下游信息，通过有监督的蒙特卡洛值误差预训练，提高了效率。我们发现在标准基准测试中，我们能够将考虑的离线算法的训练时间减少一半以上，并且出人意料地获得更大的稳定性。我们进一步强调具有一致的策略和值函数的重要性，提出了新颖的混合算法 TD3+BC+CQL 和 EDAC+BC，对行为策略和评论家进行正则化，更可靠地改进行为策略。代码可在此 URL 找到。

Abstract

Recent work has demonstrated both benefits and limitations from using supervised approaches (without temporal-difference learning) for offline reinforcement learning. While off-policy reinforcement learning provides a promising approach for improving performance beyond supervised appro

offline reinforcement learning supervised learning off-policy reinforcement learning monte-carlo value-error hybrid algorithms

发现论文，激发创造

Actor-Critic 方法在离线强化学习中的可证实益处

提出了一种新的离线演员 - 评论家算法，结合了悲观主义原则，在演员策略的动作价值函数封闭的情况下，具有多个优点，并能够在计算上处理封闭的 Bellman 评估运算符。

Aug, 2021

脱机增强型演员 - 评论者：在深度离线策略强化学习中自适应混合优化历史行为

基于强化学习的离策略算法 OBAC 通过对值进行比较，识别出性能表现优越的线下策略，并将其作为自适应约束条件，以保证更强的策略学习表现。实验结果表明，在样本效率和渐近性能方面，OBAC 超过了其他常见的无模型强化学习和先进的有模型强化学习方法，涵盖了 6 个任务套件共 53 个任务。

May, 2024

批评正则化回归

本文提出了一种基于评价器正则化回归算法（CRR）的新型离线强化学习算法，它能够在高维状态和动作空间下解决固定数据集的离线学习问题，在广泛的基准任务上表现出优越性能。

Jun, 2020

离线演员 - 评论家强化学习在大规模模型中的扩展

离线演员 - 评论家强化学习能够扩展到大规模模型（如变压器）并遵循监督学习的相似扩展规律。我们发现，离线演员 - 评论家算法在 132 个连续控制任务的大型数据集上的多任务训练中，能够优于强大的监督式行为克隆基线。我们引入了一种基于感知机的离线演员 - 评论家模型，并阐明了使离线强化学习与自注意力和跨注意力模块配合工作的关键模型特征。总体而言，我们发现：i）简单的离线演员评论家算法是逐渐摆脱当前主导的行为克隆范式的自然选择，ii）通过离线强化学习，可以从次优示范或自生成数据中学习掌握多个领域的多任务策略，包括真实的机器人任务。

Feb, 2024

提升 TD3-BC：放松策略约束用于离线学习和稳定的在线微调

该研究探讨了如何通过 RL 和行为克隆来优化策略以在离线环境下改善性能，并且证明了通过减少 BC 的影响来在训练后调整权衡以产生经过优化的政策是可能的，并且可以用于稳定的在线微调。

Nov, 2022

离策演员 - 评论家

本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题，在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时，能够灵活地运用 policy 设计，具有较强的学习潜力和泛化性能，并能收敛至较好的算法性能。

May, 2012

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

行为规范化的离线强化学习

该研究针对强化学习中现实世界应用的局限性，提出了一种 BRAC 的方法，并通过多个离线 RL 任务的实验，发现许多技术上的复杂性是不必要的。

Nov, 2019

无需离线策略评估的离线强化学习

本文探讨了离线强化学习领域中的一个策略改进方法，使用 on-policy Q 估计的行为策略，通过一步有限制 / 正则化的策略改进，能在 D4RL 基准测试中表现优于迭代算法。我们认为，迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。

Jun, 2021

行为监督调节的离线强化学习

TD3-BST 是一种应用于脱机强化学习算法的不确定性模型，通过指导策略在数据集支持中选择动作，从而比先前的方法更有效地从离线数据集中学习策略，并在具有挑战性的基准测试中取得最佳性能，无需进行特定数据集的调整。

Apr, 2024