有限覆盖混合强化学习的在线算法的自然推广

Mar, 2024

有限覆盖混合强化学习的在线算法的自然推广

A Natural Extension To Online Algorithms For Hybrid RL With Limited Coverage

Kevin Tan, Ziping Xu

TL;DR混合强化学习利用在线和离线数据，研究其可证明的好处仍然很少，通过将状态 - 动作空间分区和在线算法温启动离线数据，我们证明了混合强化学习算法的遗憾可以通过最佳分区来表征，从而在探索方面取得可证明的增益。

Abstract

hybrid reinforcement learning (RL), leveraging both online and offline data, has garnered recent interest, yet research on its provable benefits remains sparse. Additionally, many existing hybrid RL algorithms (S

hybrid reinforcement learning offline data online algorithm exploration regret

发现论文，激发创造

混合强化学习：利用离线和在线数据都可使强化学习更加高效

本文介绍一种混合强化学习算法 Hy-Q，利用离线数据集和在线实时交互来提高算法设计的效率并最终在 Montezuma's Revenge 等测试数据上将混合强化学习算法的表现优于同类算法。

Oct, 2022

无关奖励微调：混合强化学习具有可证明统计优势

本文研究了在混合设置中对表格强化学习算法的探讨，通过利用已有的离线数据集以及未知环境中的在线交互，提出了一种高效的三阶段算法，不需要在数据收集期间提供任何奖励信息并且减少了样本的复杂度。

May, 2023

离线数据增强的有保证的在线策略梯度

融合强化学习是指强化学习智能体能够同时访问离线数据和与真实环境进行交互的在线数据。本文提出了一种新的融合强化学习算法，它将基于策略的演员 - 评论家方法与离线数据相结合。理论上，我们的方法在离线强化学习特定假设成立时可以获得最佳结果，同时无论离线强化学习假设的有效性如何，仍然保持基于策略的演员 - 评论家方法的理论保证。实验结果表明，在具有挑战性的富观测环境中，我们的方法优于仅依赖于离线策略优化的最先进融合强化学习基准模型，证明了将基于策略和离线学习相结合的实证优势。

Nov, 2023

建立分布鲁棒学习和离线强化学习的桥梁：缓解分布偏移和部分数据覆盖的方法

离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决，本文提出了两种使用该框架的离线强化学习算法，并通过模拟实验展示了其优越性能。

Oct, 2023

离线观察的混合增强学习

我们考虑了混合强化学习的情境，在该情境下，智能体可以同时访问离线数据和在线交互式访问。虽然强化学习研究通常假设离线数据包含完整的动作、奖励和转换信息，但仅包含状态信息的数据集（也称为仅观测数据集）更为通用、丰富和实际。这激发了我们对具有仅观测离线数据集框架的混合强化学习的研究。在提供环境复位模型（即，可以复位到任何状态的模型）的情况下，可以解决与离线数据中的最佳策略竞争的任务。然而，我们展示了在仅获得较弱的追踪模型时（即，只能复位到初始状态并必须通过环境产生完整轨迹），且没有对离线数据的可接受性假设的情况下，问题的困难性证据。在接受性假设下 - 即离线数据实际上可以由我们考虑的策略类产生 - 我们提出了首个可以与利用复位模型的算法性能相匹配的追踪模型设置中的算法。我们还进行了概念验证实验，表明我们的算法在实践中的有效性。

Jun, 2024

何时信任你的模拟器：动态感知的离线与在线混合增强学习

本研究提出了一个新的混合离线 - 在线强化学习范式，通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷，并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法，从而为解决实际的复杂任务提供了全新的思路。

Jun, 2022

H2O+: 混合离线和在线强化学习的改进框架与动态间隙

通过模拟和实际机器人实验，我们展示了新算法 H2O + 在跨领域在线和离线强化学习算法方面的高性能和灵活性。

Sep, 2023

离线强化学习中有限数据处理的领域知识整合

通过领域知识约束和自适应改进初步的领域知识，该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习（RL）算法，并通过对标准离散环境数据集的实证评估，显示相比于现有离线 RL 算法，性能至少提升了 27%。

Jun, 2024

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021