本文提出了一个名为NeoRL的近实际场景离线强化学习基准,对现有的离线RL算法进行了评估,并提出了应该将策略的性能与确定性行为策略版本相比较,从而在现实中实现RL技术应用的验证和部署。
Feb, 2021
本研究提出了一个新的混合离线-在线强化学习范式,通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷,并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法,从而为解决实际的复杂任务提供了全新的思路。
Jun, 2022
该研究提出了一种Policy-guided Offline RL算法,该算法在训练时将想法分解为指导策略和执行策略,并通过指导策略来指导执行策略以实现状态组合性。该算法在离线RL的标准基准D4RL上展示了最高效的性能,并可以通过改变指导策略来轻松适应新的任务。
Oct, 2022
本文考虑了具有线性结构的MDPs的FineTuneRL设置,并开发了一种称为FTPedel的算法,用于结合脱机数据和在线RL以改进学习表现,结果证明了在线样本数的必要性以及在线RL和脱机数据结合的优越性,突出了在线RL和脱机RL之间的区别。
Nov, 2022
通过先预训练离线数据,再使用强化学习进行在线微调是一种有效的控制策略学习策略,本文提出了一种策略扩展方案以增加新的策略来参与探索,有效提高了学习效率和性能表现。
Feb, 2023
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高2.5倍的建议。
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观/贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的RL算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023
离线预训练与在线微调(offline-to-online 或 OtO)是与实际强化学习部署过程相匹配的范式,我们研究在线强化学习开拓问题的主要方法,其中 PTGOOD 算法在在线微调中显著提高了智能体回报,并且在少于10k的在线步骤中找到了最优策略。
Oct, 2023
在在线RL或微调中,使用乐观探索策略来探索新的状态和行为是可取的,我们提出了一种Offline-to-Online-to-Offline (OOO)框架,通过在在线微调结束时进行离线训练来恢复更好的策略。
通过研究在线强化学习,在少样本适应新环境的情况下,从一个任务中学习多种行为的优势已经被证明。然而,在离线强化学习中,学习多个解决方案的适当方法并未在先前研究中得到充分探讨。本研究因此解决了在离线强化学习中从单个任务中找到多个解决方案的问题。我们提出了一些可以在离线强化学习中学习多个解决方案的算法,并通过实证研究了它们的性能。实验结果表明,所提出的算法在离线强化学习中学习到了多个在质量和数量上都有显著差异的解决方案。
Jun, 2024