基于模型的离线强化学习与反探索
本文提出了一种基于模型的离线策略优化算法(MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。
May, 2020
该研究提出一种新的基于模型的线下强化学习算法(COMBO),该算法不需要显式的不确定性估计,通过对已学习模型下的滚动状态动作元组进行价值函数正则化,从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限,且实验表明与先前的线下模型自由和基于模型的方法相比,COMBO在广泛研究的线下RL基准测试中表现持续改进。
Feb, 2021
本文提出了一种Offline Model-based RL with Adaptive Behavioral Priors(MABE)算法,利用数据集的动力学模型和行为先验知识相结合,大大提高了离线RL策略的性能和泛化能力,在D4RL离线RL基准测试中表现优异,且具有跨域泛化性能。
Jun, 2021
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用Bayesian优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文提出了一种迭代离线模型学习(MBRL)框架,其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限,从而解决了动态模型和策略学习之间的目标不匹配问题,从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。
Oct, 2022
研究离线强化学习中的基于模型的算法及其基于样本的复杂度。分析了具有相关性样本的场景下,基于模型的离线 RL 和基于重要性采样的离线评估样本的复杂度。提供了一种优于样本均值估计的估计器。
Mar, 2023
本文对离线模型强化学习的最新工作进行了文献综述,其中介绍了离线强化学习和模型强化学习的概念和最新发展,讨论了两个领域的交叉点,并提出了未来工作的可能方向。研究了现有离线模型强化学习方法中遇到的主要问题-分布漂移,并展示了关键相关论文及其方法。
May, 2023
提出了一种名为“Ensemble-based Offline-to-Online(E2O)RL”的新框架,通过增加Q网络的数量,能够无损地桥接离线预训练和在线微调,同时通过松弛Q值估计的悲观主义和合理利用集合探索机制,加快了在线性能增强,显著优于现有的离线到在线RL方法,能够在一系列运动和导航任务的在线微调过程中极大地提高现有离线RL方法的训练稳定性,学习效率和最终性能。
Jun, 2023
我们提出了一个新颖的基于后验采样的离线RL算法,该算法在样本效率方面表现出与基于版本空间和经验正则化的算法可比拟的性能,并且具有频率主义的亚优性界限。
Jan, 2024
本研究解决了基于模型的离线强化学习中分布变化带来的挑战,提出了新的理论框架来分析模型偏差和策略变化的影响。通过引入关注变化的奖励(SAR),该方法优化了价值学习和策略训练,实验证明SAMBO-RL在多个基准测试中表现出色,表明其在实际应用中的有效性。
Aug, 2024