不要改变算法，改变数据：离线强化学习的探索性数据

Jan, 2022

不要改变算法，改变数据：离线强化学习的探索性数据

Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning

Denis Yarats, David Brandfonbrener, Hao Liu, Michael Laskin, Pieter Abbeel...

TL;DR本论文提出了一种数据导向的离线强化学习方法，称为 Exploratory data for Offline RL (ExORL)，通过无监督的无奖励探索生成数据，然后将其转换成特定奖励的数据，以训练出一个政策，实验证明，这种探索性的数据生成方法对于离线 RL 非常重要。

Abstract

Recent progress in deep learning has relied on access to large and diverse datasets. Such data-driven progress has been less evident in offline reinforcement learning (RL), because offline RL data is usually collected to optimize specific target tasks limiting the data's diversity. In

deep learning offline reinforcement learning data generation exorl exploration

发现论文，激发创造

离线强化学习作为反探索策略

本研究提出了一种新的离线强化学习代理，将基于奖励的勘探法的探索奖励从奖励中减去，以使策略保持在数据集的支持范围内，并连接该方法到对学习策略向数据集的普遍约束的正则化，通过基于变分自动编码器的预测误差的奖励进行实例化，证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。

Jun, 2021

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。

Feb, 2023

通过离线数据设计实验，对增强学习中的策略进行微调

利用离线数据集设计无反馈的探索策略，改进强化学习的政策。研究通过理论分析和度量方法，以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。

Jul, 2023

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

离线强化学习实践

此研究聚焦于离线强化学习，重点是离线学习方法的数据集属性和离线方法的成功相关性，实验证明离线 RL 的多样性和高回报的例子对于成功至关重要，并表明行为克隆仍然是竞争对手。

Nov, 2020

离线强化学习的乐观视角

该研究使用 DQN 重放数据集研究了离线强化学习，提出了随机集合混合（REM）算法以促进泛化，得到比经过完全训练的 DQN 代理更好的结果。这表明，针对足够大且多样化的离线数据集进行训练的鲁棒强化学习算法可以导致高质量的策略。

Jul, 2019

针对鲁棒的基于模型的离线强化学习的领域通用性

本文介绍了一种多演示者离线强化学习算法，该算法能够自然地解决不同演示者产生不同数据分布的问题，并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法，结果表明，该方法能够提高领域泛化性能，可以改善策略学习过程的稳定性，并可以潜在地实现探索增强。

Nov, 2022

超越均匀采样：利用不平衡数据集的离线强化学习

离线策略学习旨在利用现有的轨迹数据集来学习决策策略，而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块，从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明，在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。

Oct, 2023

离线元强化学习与在线自我监督

本文提出了一种混合离线元强化学习算法，能够使用有奖离线数据来元训练自适应策略，并通过收集额外的非监督在线数据来补偿分布偏移，这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。

Jul, 2021

离线无模型机器人强化学习工作流程

本文提出了一种实用的线下强化学习工作流程，类似于监督学习问题的工作流程，并演示了在几个模拟机器人学习场景和两个不同真实机器人上的三个任务中，使用此工作流程在没有在线调整的情况下生成有效策略的有效性。

Sep, 2021