Aug, 2024

基于模型的离线强化学习与反探索

TL;DR本研究解决了模型基强化学习中对数据量不足和覆盖不全的问题。提出的 Morse Model-based offline RL (MoMo) 方法引入了反探索的理念,通过反探索奖励与策略约束相结合,优化价值评估并有效处理分布外状态。实验结果表明,MoMo 在多个 D4RL 数据集上的表现优于现有的模型基和无模型基的基线方法。