行为规范化的离线强化学习

Nov, 2019

Behavior Regularized Offline Reinforcement Learning

Yifan Wu, George Tucker, Ofir Nachum

TL;DR该研究针对强化学习中现实世界应用的局限性，提出了一种 BRAC 的方法，并通过多个离线 RL 任务的实验，发现许多技术上的复杂性是不必要的。

Abstract

In reinforcement learning (RL) research, it is common to assume access to direct online interactions with the environment. However in many real-world applications, access to the environment is limited to a fixed offline

reinforcement learning offline dataset behavior regularized actor critic continuous control tasks offline rl setting

发现论文，激发创造

自适应行为正则化的离线强化学习

本文提出了自适应行为正则化（ABR）的方法改善已有机器学习数据集中存在的行为采样偏差，从而提高了离线强化学习的效率和稳定性，并在 D4RL 数据集上实现了最新算法中更好或相当的性能。

Nov, 2022

批评正则化回归

本文提出了一种基于评价器正则化回归算法（CRR）的新型离线强化学习算法，它能够在高维状态和动作空间下解决固定数据集的离线学习问题，在广泛的基准任务上表现出优越性能。

Jun, 2020

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

重新审视离线强化学习的极简主义方法

通过设计实验，研究离线强化学习算法中较不重要但仍影响效果的设计决策，并提出了一种集成这些设计元素的算法 ReBRAC，它在 51 个数据集上得到了最先进的表现。通过大规模实验，我们进一步证明了这些设计决策的功效。

May, 2023

脱机增强型演员 - 评论者：在深度离线策略强化学习中自适应混合优化历史行为

基于强化学习的离策略算法 OBAC 通过对值进行比较，识别出性能表现优越的线下策略，并将其作为自适应约束条件，以保证更强的策略学习表现。实验结果表明，在样本效率和渐近性能方面，OBAC 超过了其他常见的无模型强化学习和先进的有模型强化学习方法，涵盖了 6 个任务套件共 53 个任务。

May, 2024

AWAC: 利用非在线数据集加速在线强化学习

本文介绍一种可在实际机器人控制中应用的，将过往数据和在线学习相结合的策略，使用动态规划和策略更新相结合的方法可以有效提高学习效率并使学习时间缩短至实际可接受的范围。

Jun, 2020

何时应该优先选择离线强化学习而不是行为克隆？

本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法，结果表明：可以在特定的条件下，如稀疏奖励或嘈杂的数据源，现代离线学习方法可以显着地胜过行为克隆算法，尤其是在长期视野问题上，甚至比专家数据上的行为克隆算法更好。

Apr, 2022

离线演员 - 评论家强化学习在大规模模型中的扩展

离线演员 - 评论家强化学习能够扩展到大规模模型（如变压器）并遵循监督学习的相似扩展规律。我们发现，离线演员 - 评论家算法在 132 个连续控制任务的大型数据集上的多任务训练中，能够优于强大的监督式行为克隆基线。我们引入了一种基于感知机的离线演员 - 评论家模型，并阐明了使离线强化学习与自注意力和跨注意力模块配合工作的关键模型特征。总体而言，我们发现：i）简单的离线演员评论家算法是逐渐摆脱当前主导的行为克隆范式的自然选择，ii）通过离线强化学习，可以从次优示范或自生成数据中学习掌握多个领域的多任务策略，包括真实的机器人任务。

Feb, 2024

强化学习的苦涩教训：行动者 - 评论家中的高估、过拟合和可塑性

通过在多个仿真场景中测试超过 60 种不同的 off-policy 智能体，并结合最新的正则化技术，我们发现适当进行正则化的简单 Soft Actor-Critic 智能体在解决狗任务方面表现出稳健而优越的性能。

Mar, 2024

离线强化学习中的泛化缺陷

该研究通过比较在线学习和离线学习等方法的泛化能力，引入离线学习泛化性能评估的新基准，并发现离线学习算法在新环境中的表现不如在线学习算法，而增加数据多样性能够提高离线学习算法在新环境中的性能。

Dec, 2023