Nov, 2021

使用自监督的世界模型进行规程泛化

TL;DR在本文中,我们评估了 MuZero 代理在程序化和任务通用性方面的性能,并通过比较自由模型代理,确定了模型代理的泛化能力。我们发现,计划、自监督表示学习和程序数据多样性是程序化通用性的三个因素,并表明结合这些技术可以实现出色的通用性性能和数据效率。然而,我们发现这些因素不总是为 Meta-World 中的任务通用性基准提供相同的好处。