有限覆盖混合强化学习的在线算法的自然推广
本文介绍一种混合强化学习算法 Hy-Q,利用离线数据集和在线实时交互来提高算法设计的效率并最终在 Montezuma's Revenge 等测试数据上将混合强化学习算法的表现优于同类算法。
Oct, 2022
本文研究了在混合设置中对表格强化学习算法的探讨,通过利用已有的离线数据集以及未知环境中的在线交互,提出了一种高效的三阶段算法,不需要在数据收集期间提供任何奖励信息并且减少了样本的复杂度。
May, 2023
融合强化学习是指强化学习智能体能够同时访问离线数据和与真实环境进行交互的在线数据。本文提出了一种新的融合强化学习算法,它将基于策略的演员 - 评论家方法与离线数据相结合。理论上,我们的方法在离线强化学习特定假设成立时可以获得最佳结果,同时无论离线强化学习假设的有效性如何,仍然保持基于策略的演员 - 评论家方法的理论保证。实验结果表明,在具有挑战性的富观测环境中,我们的方法优于仅依赖于离线策略优化的最先进融合强化学习基准模型,证明了将基于策略和离线学习相结合的实证优势。
Nov, 2023
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023
我们考虑了混合强化学习的情境,在该情境下,智能体可以同时访问离线数据和在线交互式访问。虽然强化学习研究通常假设离线数据包含完整的动作、奖励和转换信息,但仅包含状态信息的数据集(也称为仅观测数据集)更为通用、丰富和实际。这激发了我们对具有仅观测离线数据集框架的混合强化学习的研究。在提供环境复位模型(即,可以复位到任何状态的模型)的情况下,可以解决与离线数据中的最佳策略竞争的任务。然而,我们展示了在仅获得较弱的追踪模型时(即,只能复位到初始状态并必须通过环境产生完整轨迹),且没有对离线数据的可接受性假设的情况下,问题的困难性证据。在接受性假设下 - 即离线数据实际上可以由我们考虑的策略类产生 - 我们提出了首个可以与利用复位模型的算法性能相匹配的追踪模型设置中的算法。我们还进行了概念验证实验,表明我们的算法在实践中的有效性。
Jun, 2024
本研究提出了一个新的混合离线 - 在线强化学习范式,通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷,并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法,从而为解决实际的复杂任务提供了全新的思路。
Jun, 2022
通过领域知识约束和自适应改进初步的领域知识,该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习(RL)算法,并通过对标准离散环境数据集的实证评估,显示相比于现有离线 RL 算法,性能至少提升了 27%。
Jun, 2024
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023