本文提出了一种基于模型的离线策略优化算法(MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。
May, 2020
该研究提出一种新的基于模型的线下强化学习算法(COMBO),该算法不需要显式的不确定性估计,通过对已学习模型下的滚动状态动作元组进行价值函数正则化,从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限,且实验表明与先前的线下模型自由和基于模型的方法相比,COMBO在广泛研究的线下RL基准测试中表现持续改进。
Feb, 2021
本文提出了一种Offline Model-based RL with Adaptive Behavioral Priors(MABE)算法,利用数据集的动力学模型和行为先验知识相结合,大大提高了离线RL策略的性能和泛化能力,在D4RL离线RL基准测试中表现优异,且具有跨域泛化性能。
Jun, 2021
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用Bayesian优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
该论文提出了一种离线动态适应的强化学习方法,实现了对目标任务中状态转移对的学习,并且通过奖励增强在源任务的离线数据集中的学习,显著降低了在目标环境下的数据要求。
Mar, 2022
通过维护动态神经网络的信念分布,以偏向悲观主义的样本采样为基础的迭代策略优化算法被设计,可以最大限度地利用静态数据集,实现基于模型的离线强化学习。
Oct, 2022
提出了一种基于模型的强化学习算法的性能保证方法,引入了一个受约束的下界优化问题,采用了事件触发机制,从而克服了模型更新对性能的影响,并在实验中证明了该方法的有效性。
本文对离线模型强化学习的最新工作进行了文献综述,其中介绍了离线强化学习和模型强化学习的概念和最新发展,讨论了两个领域的交叉点,并提出了未来工作的可能方向。研究了现有离线模型强化学习方法中遇到的主要问题-分布漂移,并展示了关键相关论文及其方法。
May, 2023
利用动量匹配离线模型优化的方法(MOMBO),通过确定性传播不确定性,解决了模型基于离线强化学习中由于过度惩罚导致次优策略问题的挑战,并通过在各种环境中的实证研究证明MOMBO是更稳定和更高效的方法。
Jun, 2024
本研究解决了模型基强化学习中对数据量不足和覆盖不全的问题。提出的 Morse Model-based offline RL (MoMo) 方法引入了反探索的理念,通过反探索奖励与策略约束相结合,优化价值评估并有效处理分布外状态。实验结果表明,MoMo 在多个 D4RL 数据集上的表现优于现有的模型基和无模型基的基线方法。
Aug, 2024