May, 2024

基于随机演示的学习:使用重要性采样扩散模型的离线强化学习

TL;DR我们提出了一种新的离线强化学习方法,利用引导扩散世界模型来直接评估离线目标策略,并进行一种重要性抽样的世界模型更新来使其与更新后的策略适应。在 D4RL 环境中的评估结果显示,在只有随机或中等专家示范的情况下,我们的方法相较于现有基线表现显著改进,从而需要改进世界模型与离线策略评估之间的对齐。