利用离线数据进行在线强化学习
本文提出了一个名为NeoRL的近实际场景离线强化学习基准,对现有的离线RL算法进行了评估,并提出了应该将策略的性能与确定性行为策略版本相比较,从而在现实中实现RL技术应用的验证和部署。
Feb, 2021
本文研究了如何将离线数据转换为强化学习模型的有效训练,通过使用无监督学习目标进行预训练的方法,本文提出了一种能够改善从离线数据训练得到的强化学习模型性能的方案,并通过实验证明了其有效性。
Feb, 2021
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法LCB,在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究,结果揭示了一些有关最优性率的令人惊讶的事实。
Mar, 2021
本文研究了在线学习与离线数据集学习两种环境下的样本有效的强化学习,提出了一个新的策略微调问题——在线 RL 中,学习者在某种意义下可以接近最优策略,并在马尔科夫决策过程(MDP) 中解决了这个问题。我们还提出了一个新的混合离线/在线策略微调算法,达到了更好的样本复杂度。
Jun, 2021
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高2.5倍的建议。
Feb, 2023
本文介绍了一种名为自适应策略学习的框架,可用于离线学习与在线学习的融合,并通过采用乐观/贪心和悲观更新策略来提高离线数据集的质量,进而通过将值或基于策略的RL算法嵌入其中来实现。在各种连续控制任务上进行的实验表明,该算法可以在离线数据集质量较差的情况下实现高样本效率。
Mar, 2023
研究了强化学习中采用离线轨迹进行数据增强的方法,发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略, 预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。
Apr, 2023
离线策略学习旨在利用现有的轨迹数据集来学习决策策略,而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块,从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明,在72个不平衡数据集、D4RL数据集以及三个不同离线强化学习算法中均取得了显著的性能改进。
Oct, 2023
混合强化学习利用在线和离线数据,研究其可证明的好处仍然很少,通过将状态-动作空间分区和在线算法温启动离线数据,我们证明了混合强化学习算法的遗憾可以通过最佳分区来表征,从而在探索方面取得可证明的增益。
Mar, 2024