Uni-O4: 统一在线与离线深度强化学习及多步经验策略优化

Nov, 2023

Uni-O4: 统一在线与离线深度强化学习及多步经验策略优化

Uni-O4: Unifying Online and Offline Deep Reinforcement Learning with Multi-Step On-Policy Optimization

Kun Lei, Zhengmao He, Chenhao Lu, Kaizhe Hu, Yang Gao...

TL;DR利用 Uni-o4 方法，将离线学习和在线学习无缝结合，通过离线的策略评估和多步策略改进，实现了优越的离线初始化和稳定快速的在线微调能力，被证明在真实世界环境和模拟基准测试中表现出最先进的性能。

Abstract

Combining offline and online reinforcement learning (RL) is crucial for efficient and safe learning. However, previous approaches treat offline and online learning as separate procedures, resulting in redundant designs and limited performance. We ask: Can we achieve straightforward yet

offline and online reinforcement learning uni-o4 policy improvement rapid deployment real-world environments

发现论文，激发创造

基于不确定性和平滑性的稳健离线到在线强化学习

提出了一种名为 Robust Offline-to-Online (RO2O) 算法的方法，通过不确定性和平滑性来增强离线策略，并在在线适应中减少性能下降，实验结果表明其在促进稳定的离线到在线学习方面具有优越性。

Sep, 2023

离线训练用于在线 RL: 解耦策略学习以减轻探索偏见

在在线 RL 或微调中，使用乐观探索策略来探索新的状态和行为是可取的，我们提出了一种 Offline-to-Online-to-Offline (OOO) 框架，通过在在线微调结束时进行离线训练来恢复更好的策略。

Oct, 2023

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

基于集成的离线到在线强化学习：从悲观学习到乐观探索

提出了一种名为 “Ensemble-based Offline-to-Online（E2O）RL” 的新框架，通过增加 Q 网络的数量，能够无损地桥接离线预训练和在线微调，同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制，加快了在线性能增强，显著优于现有的离线到在线 RL 方法，能够在一系列运动和导航任务的在线微调过程中极大地提高现有离线 RL 方法的训练稳定性，学习效率和最终性能。

Jun, 2023

PROTO: 迭代策略规范化离线到在线强化学习

PROTO 使用逐步演化的正则化项优化标准 RL 目标，实现离线到在线 RL 的路径，与各种方法高度适应并具有高效的在线调整性能。

May, 2023

面向离线 - 在线强化学习的政策扩展方案

通过先预训练离线数据，再使用强化学习进行在线微调是一种有效的控制策略学习策略，本文提出了一种策略扩展方案以增加新的策略来参与探索，有效提高了学习效率和性能表现。

Feb, 2023

无需离线策略评估的离线强化学习

本文探讨了离线强化学习领域中的一个策略改进方法，使用 on-policy Q 估计的行为策略，通过一步有限制 / 正则化的策略改进，能在 D4RL 基准测试中表现优于迭代算法。我们认为，迭代算法的性能较差是由于进行 off-policy 评估所固有的高方差以及相对较差的行为策略等原因所导致的。

Jun, 2021

交替离线模型训练和策略学习的统一框架

本文提出了一种迭代离线模型学习 (MBRL) 框架，其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限，从而解决了动态模型和策略学习之间的目标不匹配问题，从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。

Oct, 2022

使用未标记数据增强离线强化学习

该研究提出了一种解决离线强化学习中的 OOD 问题的新方法，通过引入离线强化学习师生框架和策略相似度度量，使得学生策略不仅可以从离线数据集中获取见解，还可以从教师策略传递的知识中获得额外的信息，从而有效解决 OOD 问题。

Jun, 2024

训练一次，得到一个家庭：离线到在线强化学习的状态自适应平衡

离线到在线强化学习 (RL) 是一种训练范式，它将在预先收集的数据集上进行预训练，并在在线环境中进行微调。然而，在线微调的引入可能加剧已知的分布偏移问题。现有的解决方案通过对离线和在线学习中的策略改进目标施加策略约束来解决这个问题。它们通常提倡在不同数据集之间采用单一的平衡。鉴于不同状态下数据质量的显著变化，这种一刀切的方式可能无法充分利用每个收集样本。为此，我们引入了家族离线到在线 RL (FamO2O) 的简单而有效的框架，使现有算法能够确定适应状态的改进约束平衡。FamO2O 利用一个通用模型训练一族具有不同改进 / 约束强度的策略，同时使用一个平衡模型为每个状态选择适当的策略。从理论上来说，我们证明了状态自适应平衡对于实现更高的策略性能上限是必要的。经验上，大量实验证明 FamO2O 相对于各种现有方法具有统计显著改进，在 D4RL 基准上实现了最先进的性能。代码可在此网址获得

Oct, 2023