MOPO: 基于模型的离线策略优化
本研究提出了基于模型的离线强化学习算法 MOReL,具有模块化设计,可以用于模型生成、不确定性估计、规划等领域,实验结果表明,MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。
May, 2020
该研究提出一种新的基于模型的线下强化学习算法(COMBO),该算法不需要显式的不确定性估计,通过对已学习模型下的滚动状态动作元组进行价值函数正则化,从而得到状态动作元组价值函数的保守估计。该方法可以优化真实策略价值的下限,且实验表明与先前的线下模型自由和基于模型的方法相比,COMBO在广泛研究的线下RL基准测试中表现持续改进。
Feb, 2021
本研究提出了一个新型的轻量级基于模型的离线规划框架MOPP,通过通过学习数据中的行为策略鼓励更激进的轨迹回放,并修剪出问题轨迹,以避免潜在的超出分布样本,相对于现有模型的离线规划和RL方法表现更具有竞争性。
May, 2021
本文提出了一种Offline Model-based RL with Adaptive Behavioral Priors(MABE)算法,利用数据集的动力学模型和行为先验知识相结合,大大提高了离线RL策略的性能和泛化能力,在D4RL离线RL基准测试中表现优异,且具有跨域泛化性能。
Jun, 2021
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用Bayesian优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文提出了一种迭代离线模型学习(MBRL)框架,其中通过交替进行动态模型训练和策略学习来最大化真实预期回报的下限,从而解决了动态模型和策略学习之间的目标不匹配问题,从而在广泛的连续控制离线强化学习数据集上实现了竞争性能。
Oct, 2022
本文对离线模型强化学习的最新工作进行了文献综述,其中介绍了离线强化学习和模型强化学习的概念和最新发展,讨论了两个领域的交叉点,并提出了未来工作的可能方向。研究了现有离线模型强化学习方法中遇到的主要问题-分布漂移,并展示了关键相关论文及其方法。
May, 2023
我们提出了一个简单而有效的基于模型的离线强化学习框架ORPO,通过提倡更多的离群值扩展,基于乐观的MDP生成乐观模型推演用于悲观的离线策略优化,并在理论上证明ORPO训练出的策略在线性MDP中具有下界,实验结果显示我们的框架在广泛应用的基准测试中显著优于P-MDP基线,尤其在需要泛化的问题上表现出明显优势。
Jan, 2024
本研究解决了模型基强化学习中对数据量不足和覆盖不全的问题。提出的 Morse Model-based offline RL (MoMo) 方法引入了反探索的理念,通过反探索奖励与策略约束相结合,优化价值评估并有效处理分布外状态。实验结果表明,MoMo 在多个 D4RL 数据集上的表现优于现有的模型基和无模型基的基线方法。
Aug, 2024