EMNLPDec, 2023

自我监督行为复制的变压器是文本游戏的路径爬虫

TL;DR我们介绍了一种自监督行为克隆变压器,用于文本游戏,这是虚拟环境中的多步推理的具有挑战性的基准。通过自动生成训练数据的方式,我们的方法能够在三个基准文本游戏中实现约 90%的监督系统性能。