混合强化学习：利用离线和在线数据都可使强化学习更加高效

ICLROct, 2022

混合强化学习：利用离线和在线数据都可使强化学习更加高效

Hybrid RL: Using Both Offline and Online Data Can Make RL Efficient

Yuda Song, Yifei Zhou, Ayush Sekhari, J. Andrew Bagnell, Akshay Krishnamurthy...

TL;DR本文介绍一种混合强化学习算法 Hy-Q，利用离线数据集和在线实时交互来提高算法设计的效率并最终在 Montezuma's Revenge 等测试数据上将混合强化学习算法的表现优于同类算法。

Abstract

We consider a hybrid reinforcement learning setting (Hybrid RL), in which an agent has access to an offline dataset and the ability to collect experience via real-world →

hybrid reinforcement learning offline dataset online interaction hy-q neural network function approximation

发现论文，激发创造

无关奖励微调：混合强化学习具有可证明统计优势

本文研究了在混合设置中对表格强化学习算法的探讨，通过利用已有的离线数据集以及未知环境中的在线交互，提出了一种高效的三阶段算法，不需要在数据收集期间提供任何奖励信息并且减少了样本的复杂度。

May, 2023

有限覆盖混合强化学习的在线算法的自然推广

混合强化学习利用在线和离线数据，研究其可证明的好处仍然很少，通过将状态 - 动作空间分区和在线算法温启动离线数据，我们证明了混合强化学习算法的遗憾可以通过最佳分区来表征，从而在探索方面取得可证明的增益。

Mar, 2024

何时信任你的模拟器：动态感知的离线与在线混合增强学习

本研究提出了一个新的混合离线 - 在线强化学习范式，通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷，并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法，从而为解决实际的复杂任务提供了全新的思路。

Jun, 2022

离线观察的混合增强学习

我们考虑了混合强化学习的情境，在该情境下，智能体可以同时访问离线数据和在线交互式访问。虽然强化学习研究通常假设离线数据包含完整的动作、奖励和转换信息，但仅包含状态信息的数据集（也称为仅观测数据集）更为通用、丰富和实际。这激发了我们对具有仅观测离线数据集框架的混合强化学习的研究。在提供环境复位模型（即，可以复位到任何状态的模型）的情况下，可以解决与离线数据中的最佳策略竞争的任务。然而，我们展示了在仅获得较弱的追踪模型时（即，只能复位到初始状态并必须通过环境产生完整轨迹），且没有对离线数据的可接受性假设的情况下，问题的困难性证据。在接受性假设下 - 即离线数据实际上可以由我们考虑的策略类产生 - 我们提出了首个可以与利用复位模型的算法性能相匹配的追踪模型设置中的算法。我们还进行了概念验证实验，表明我们的算法在实践中的有效性。

Jun, 2024

离线数据增强的有保证的在线策略梯度

融合强化学习是指强化学习智能体能够同时访问离线数据和与真实环境进行交互的在线数据。本文提出了一种新的融合强化学习算法，它将基于策略的演员 - 评论家方法与离线数据相结合。理论上，我们的方法在离线强化学习特定假设成立时可以获得最佳结果，同时无论离线强化学习假设的有效性如何，仍然保持基于策略的演员 - 评论家方法的理论保证。实验结果表明，在具有挑战性的富观测环境中，我们的方法优于仅依赖于离线策略优化的最先进融合强化学习基准模型，证明了将基于策略和离线学习相结合的实证优势。

Nov, 2023

H2O+: 混合离线和在线强化学习的改进框架与动态间隙

通过模拟和实际机器人实验，我们展示了新算法 H2O + 在跨领域在线和离线强化学习算法方面的高性能和灵活性。

Sep, 2023

利用离线数据进行在线强化学习

本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置，并开发了一种称为 FTPedel 的算法，用于结合脱机数据和在线 RL 以改进学习表现，结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性，突出了在线 RL 和脱机 RL 之间的区别。

Nov, 2022

基于混合数据集的无线网络优化的离线强化学习

本研究采用离线强化学习算法解决无线电资源管理问题，通过评估使用行为策略收集的异构数据集来提出一种新的离线强化学习解决方案，表明在适当混合数据集的情况下，离线强化学习能够产生接近最优的强化学习策略。

Nov, 2023

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

离线强化学习实践

此研究聚焦于离线强化学习，重点是离线学习方法的数据集属性和离线方法的成功相关性，实验证明离线 RL 的多样性和高回报的例子对于成功至关重要，并表明行为克隆仍然是竞争对手。

Nov, 2020