Sep, 2023

和谐世界模型:提高基于模型的强化学习的样本效率

TL;DR通过进行实证调查,这篇论文深入研究了世界模型中观察建模和奖励建模的作用,并发现在调和观察和奖励建模之间的干扰方面存在更高效的模型驱动强化学习的潜力。借助这些发现,提出了一种称为 Harmony World Models(HarmonyWM)的简单而有效的方法,通过引入一个轻量级的调和器来保持世界模型学习中两个任务之间的动态平衡。实验结果表明,基于 HarmonyWM 方法的基础模型驱动强化学习方法在三个视觉控制领域取得了 10% 至 55% 的绝对性能提升。