面向离线 - 在线强化学习的政策扩展方案
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023
本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习,提出了一个新的策略微调问题 —— 在线 RL 中,学习者在某种意义下可以接近最优策略,并在马尔科夫决策过程 (MDP) 中解决了这个问题。我们还提出了一个新的混合离线 / 在线策略微调算法,达到了更好的样本复杂度。
Jun, 2021
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高 2.5 倍的建议。
Feb, 2023
离线强化学习(RL)在探索可能成本高昂或不安全的真实世界应用中至关重要。然而,离线学习的策略通常是次优的,需要进一步进行在线微调。本文解决了离线到在线微调的基本困境:如果智能体保持悲观态度,可能无法学到更好的策略,而如果直接变得乐观,性能可能会突然下降。我们证明贝叶斯设计原则在解决这种困境中至关重要。智能体不应采取乐观或悲观的策略,而是应根据其对最优策略的信念采取行动。这样的概率匹配智能体可以避免性能突然下降,同时保证找到最优策略。基于我们的理论发现,我们提出了一种优于现有方法的新算法,在各种基准测试中展示了我们方法的有效性。总体而言,所提出的方法为离线到在线 RL 提供了一种新的视角,有潜力使离线数据的学习更加有效。
May, 2024
利用离线数据集设计无反馈的探索策略,改进强化学习的政策。研究通过理论分析和度量方法,以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。
Jul, 2023
本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置,并开发了一种称为 FTPedel 的算法,用于结合脱机数据和在线 RL 以改进学习表现,结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性,突出了在线 RL 和脱机 RL 之间的区别。
Nov, 2022
本文研究了在混合设置中对表格强化学习算法的探讨,通过利用已有的离线数据集以及未知环境中的在线交互,提出了一种高效的三阶段算法,不需要在数据收集期间提供任何奖励信息并且减少了样本的复杂度。
May, 2023
本论文提出了一种算法,使用户可以同时解决由于性能不佳或行为不熟悉而导致的问题,通过调整运行时的设定,可以逐步调整最重要的超参数 —— 将学习的策略与原始策略之间的接近程度,并在策略降级或行为过于偏离熟悉行为时随时停止。
May, 2022
在在线 RL 或微调中,使用乐观探索策略来探索新的状态和行为是可取的,我们提出了一种 Offline-to-Online-to-Offline (OOO) 框架,通过在在线微调结束时进行离线训练来恢复更好的策略。
Oct, 2023