ICLRDec, 2023

学习无行动行动

TL;DR通过从无动作演示中推断潜在动作,我们介绍了一种名为 LAPO 的方法,它可以有效地预训练深度强化学习模型,并且可以快速微调以实现专家级表现。这为在网上大量的无动作演示中预训练强大而通用的强化学习模型提供了重要基础。