基于不确定性和平滑性的稳健离线到在线强化学习

Sep, 2023

基于不确定性和平滑性的稳健离线到在线强化学习

Towards Robust Offline-to-Online Reinforcement Learning via Uncertainty and Smoothness

Xiaoyu Wen, Xudong Yu, Rui Yang, Chenjia Bai, Zhen Wang

TL;DR提出了一种名为 Robust Offline-to-Online (RO2O) 算法的方法，通过不确定性和平滑性来增强离线策略，并在在线适应中减少性能下降，实验结果表明其在促进稳定的离线到在线学习方面具有优越性。

Abstract

To obtain a near-optimal policy with fewer interactions in Reinforcement Learning (RL), a promising approach involves the combination of offline RL, which enhances sample efficiency by leveraging offline datasets, and online RL, which explores informative transitions by interacting with the environment. Offline-to-Online (O2O) RL provides a paradigm for impr

reinforcement learning offline-to-online rl robust offline-to-online algorithm uncertainty smoothness

发现论文，激发创造

离线到线上强化学习中 Q 值估计的视角

离线到在线强化学习（O2O RL）旨在通过少量在线样本来改进离线预训练策略的性能。本文从一个新颖的角度系统研究 O2O RL 中仍存在的挑战，并确定性能改进缓慢和在线微调不稳定的原因在于离线预训练中准确性不高的 Q 值估计。为解决这个问题，我们采用了两种技术：扰动值更新和增加 Q 值更新的频率。我们的实验证明，提出的方法 SO2 显著缓解了 Q 值估计问题，并相对于最先进的方法改进了性能高达 83.1%。

Dec, 2023

基于集成的离线到在线强化学习：从悲观学习到乐观探索

提出了一种名为 “Ensemble-based Offline-to-Online（E2O）RL” 的新框架，通过增加 Q 网络的数量，能够无损地桥接离线预训练和在线微调，同时通过松弛 Q 值估计的悲观主义和合理利用集合探索机制，加快了在线性能增强，显著优于现有的离线到在线 RL 方法，能够在一系列运动和导航任务的在线微调过程中极大地提高现有离线 RL 方法的训练稳定性，学习效率和最终性能。

Jun, 2023

RORL: 基于保守平滑的强化学习离线稳健性算法

本文介绍了一种名为 Robust Offline Reinforcement Learning (RORL) 的保守平滑技术，用于解决当前离线 RL 算法在真实环境中遇到观测扰动时的鲁棒性问题，同时还能在性能和鲁棒性上实现权衡，并取得了非常好的表现。

Jun, 2022

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

基于不确定性的分布离线强化学习

提出了一种不确定性感知的离线强化学习方法，同时解决了认知不确定性和环境随机性，能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估，证明了其卓越的性能。

Mar, 2024

分布鲁棒优化有效地解决离线强化学习问题

本文利用不确定性集来直接建模转移内核的不确定性，并采用分布稳健优化方法，通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。

May, 2023

使用离线数据的强化学习算法

该论文提出一种名为 RFQI 的稳健强化学习算法，使用离线数据集来优化策略，在标准条件下该算法能够学习到近乎最优的稳健策略，并且在标准基准测试问题上展现出卓越的性能表现。

Aug, 2022

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

何时信任你的模拟器：动态感知的离线与在线混合增强学习

本研究提出了一个新的混合离线 - 在线强化学习范式，通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷，并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法，从而为解决实际的复杂任务提供了全新的思路。

Jun, 2022

训练一次，得到一个家庭：离线到在线强化学习的状态自适应平衡

离线到在线强化学习 (RL) 是一种训练范式，它将在预先收集的数据集上进行预训练，并在在线环境中进行微调。然而，在线微调的引入可能加剧已知的分布偏移问题。现有的解决方案通过对离线和在线学习中的策略改进目标施加策略约束来解决这个问题。它们通常提倡在不同数据集之间采用单一的平衡。鉴于不同状态下数据质量的显著变化，这种一刀切的方式可能无法充分利用每个收集样本。为此，我们引入了家族离线到在线 RL (FamO2O) 的简单而有效的框架，使现有算法能够确定适应状态的改进约束平衡。FamO2O 利用一个通用模型训练一族具有不同改进 / 约束强度的策略，同时使用一个平衡模型为每个状态选择适当的策略。从理论上来说，我们证明了状态自适应平衡对于实现更高的策略性能上限是必要的。经验上，大量实验证明 FamO2O 相对于各种现有方法具有统计显著改进，在 D4RL 基准上实现了最先进的性能。代码可在此网址获得

Oct, 2023