离线强化学习中的结构化非稳定性数据集

May, 2024

离线强化学习中的结构化非稳定性数据集

Offline Reinforcement Learning from Datasets with Structured Non-Stationarity

Johannes Ackermann, Takayuki Osa, Masashi Sugiyama

TL;DR当前强化学习通常受到需要大量数据来学习成功策略的限制。离线强化学习旨在通过使用由不同行为策略收集到的转换来解决这个问题。我们提出了一种基于对比预测编码的方法，该方法识别了离线数据集中的非稳定性，在训练策略时对其进行考虑，并在评估过程中进行预测。我们分析了我们提出的方法，并展示了它在简单的连续控制任务和具有挑战性的高维运动任务中的良好表现。我们证明了我们的方法往往达到了最优性能，并且比基线方法表现更好。

Abstract

Current reinforcement learning (RL) is often limited by the large amount of data needed to learn a successful policy. offline rl aims to solve this issue by using transitions collected by a different behavior pol

reinforcement learning offline rl contrastive predictive coding non-stationarity continuous control tasks

发现论文，激发创造

将基于模型策略的稳态分布规范化以稳定离线强化学习

该研究针对离线强化学习中策略训练不稳定的问题，通过对当前策略的无折扣平稳分布进行正则化，并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布，从而减少分布不匹配引起的误差，并在广泛的连续控制离线 RL 数据集上展现出竞争性的性能。

Jun, 2022

深度强化学习在生命周期非稳态环境下的应用

在非稳态环境下，我们提出了一种新的离线强化学习算法，该算法使用潜在变量模型，将当前和过去的经验学习环境的表示，并在此表示下执行离线强化学习，实验结果表明这种方法显著优于不考虑环境变化的方法。

Jun, 2020

离线强化学习作为反探索策略

本研究提出了一种新的离线强化学习代理，将基于奖励的勘探法的探索奖励从奖励中减去，以使策略保持在数据集的支持范围内，并连接该方法到对学习策略向数据集的普遍约束的正则化，通过基于变分自动编码器的预测误差的奖励进行实例化，证明了该代理在一组连续控制运动和操作任务的状态下存在竞争力。

Jun, 2021

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

离线强化学习实践

此研究聚焦于离线强化学习，重点是离线学习方法的数据集属性和离线方法的成功相关性，实验证明离线 RL 的多样性和高回报的例子对于成功至关重要，并表明行为克隆仍然是竞争对手。

Nov, 2020

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

离线强化学习综述：分类、评估与开放性问题

本论文提出一个在线学习和离线学习技术的归一化分类法，总结了离线 RL 领域的最新算法突破和现有基准的特性和不足，并提供了对未来研究方向的展望。

Mar, 2022

离线元强化学习与在线自我监督

本文提出了一种混合离线元强化学习算法，能够使用有奖离线数据来元训练自适应策略，并通过收集额外的非监督在线数据来补偿分布偏移，这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。

Jul, 2021

超越均匀采样：利用不平衡数据集的离线强化学习

离线策略学习旨在利用现有的轨迹数据集来学习决策策略，而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块，从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明，在 72 个不平衡数据集、D4RL 数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。

Oct, 2023

单任务持续离线强化学习

本研究提出了一种新的算法，名为基于经验回放的集成离线强化学习，通过引入多个值网络来学习相同的数据集，并通过值网络的离散程度判断策略是否已经学习，以提高单任务离线强化学习网络的性能。

Apr, 2024