Mar, 2024

梦想着众多世界:学习上下文世界模型助于零样本泛化

TL;DR提出了一种称为 cRSSM 的上下文循环状态空间模型,该模型通过将上下文与观察值结合起来,改进了 Dreamer 的世界模型,从而提高了在未见上下文情况下训练的策略的零 - shot 泛化能力。