AAAIJun, 2023

通过指令预测提高长期模仿能力

TL;DR本研究探讨在长时间跨度规划中,利用语言指令作为辅助监督的方法,使用 transformer-based 的模型,通过 instruction modeling 不断改善 agent 在 BabyAI 和 Crafter 等基准环境中的规划表现。