Oct, 2021

DreamerPro: 无需重建的基于模型的原型表示强化学习

TL;DR本研究旨在提高基于模型的强化学习代理在处理视觉干扰方面的鲁棒性。我们提出了一种从世界模型的循环状态中学习原型表示的方法,将过去的观察和动作中的时间结构提取为原型。DreamerPro 模型通过将 Dreamer 与原型组合起来,在标准设置和存在复杂背景干扰的情况下都取得了大幅性能提高。