何时信任你的模拟器：动态感知的离线与在线混合增强学习

Jun, 2022

何时信任你的模拟器：动态感知的离线与在线混合增强学习

When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning

Haoyi Niu, Shubham Sharma, Yiwen Qiu, Ming Li, Guyue Zhou...

TL;DR本研究提出了一个新的混合离线 - 在线强化学习范式，通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷，并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法，从而为解决实际的复杂任务提供了全新的思路。

Abstract

Learning effective reinforcement learning (RL) policies to solve real-world complex tasks can be quite challenging without a high-fidelity simulation environment. In most cases, we are only given imperfect simulators with simplified dynamics, which inevitably lead to severe

reinforcement learning offline rl online rl sim-to-real gaps real-world tasks

发现论文，激发创造

H2O+: 混合离线和在线强化学习的改进框架与动态间隙

通过模拟和实际机器人实验，我们展示了新算法 H2O + 在跨领域在线和离线强化学习算法方面的高性能和灵活性。

Sep, 2023

混合强化学习：利用离线和在线数据都可使强化学习更加高效

本文介绍一种混合强化学习算法 Hy-Q，利用离线数据集和在线实时交互来提高算法设计的效率并最终在 Montezuma's Revenge 等测试数据上将混合强化学习算法的表现优于同类算法。

Oct, 2022

具有偏倚离线数据和不完善模拟器的强化学习基准

许多强化学习应用中，很难让智能体在真实世界中行动，这给自动驾驶、医疗应用甚至某些推荐系统带来了困扰。本研究概述了强化学习中将离线数据与不完善模拟器相结合的四个主要挑战，并构建了 “机械离线强化学习基准”（B4MRL）来推动该领域的研究。结果表明，这些基准对未来研究至关重要。

Jun, 2024

PerSim：基于个性化模拟器的异构智能体数据高效离线强化学习

本文提出基于模型的离线强化学习方法 PerSim 来解决数据稀缺性问题，通过学习每个智能体的个性化模拟器来提高性能并同时学习个性化策略。

Feb, 2021

有限覆盖混合强化学习的在线算法的自然推广

混合强化学习利用在线和离线数据，研究其可证明的好处仍然很少，通过将状态 - 动作空间分区和在线算法温启动离线数据，我们证明了混合强化学习算法的遗憾可以通过最佳分区来表征，从而在探索方面取得可证明的增益。

Mar, 2024

离线观察的混合增强学习

我们考虑了混合强化学习的情境，在该情境下，智能体可以同时访问离线数据和在线交互式访问。虽然强化学习研究通常假设离线数据包含完整的动作、奖励和转换信息，但仅包含状态信息的数据集（也称为仅观测数据集）更为通用、丰富和实际。这激发了我们对具有仅观测离线数据集框架的混合强化学习的研究。在提供环境复位模型（即，可以复位到任何状态的模型）的情况下，可以解决与离线数据中的最佳策略竞争的任务。然而，我们展示了在仅获得较弱的追踪模型时（即，只能复位到初始状态并必须通过环境产生完整轨迹），且没有对离线数据的可接受性假设的情况下，问题的困难性证据。在接受性假设下 - 即离线数据实际上可以由我们考虑的策略类产生 - 我们提出了首个可以与利用复位模型的算法性能相匹配的追踪模型设置中的算法。我们还进行了概念验证实验，表明我们的算法在实践中的有效性。

Jun, 2024

Re$^2$H2O: 基于反向正则化的混合离线和在线强化学习的自动驾驶场景生成

利用反向正则化混合离线 - 在线强化学习模型同时学习真实世界和模拟数据来生成自动驾驶测试场景，实现更高效的 AV 测试和更准确的风险评估。

Feb, 2023

基于不确定性和平滑性的稳健离线到在线强化学习

提出了一种名为 Robust Offline-to-Online (RO2O) 算法的方法，通过不确定性和平滑性来增强离线策略，并在在线适应中减少性能下降，实验结果表明其在促进稳定的离线到在线学习方面具有优越性。

Sep, 2023

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

改进带有不准确模拟器的离线强化学习

提出一种结合离线数据集和不准确模拟数据的新方法，通过预先训练生成对抗网络模型来适应离线数据集的状态分布，并通过鉴别器重新加权不准确模拟数据，实验证实该方法能够在 D4RL 基准和实际操作任务中比现有方法获得更好的性能。

May, 2024