Apr, 2023

行动前先思考:将语言推理与行动交错的统一策略

TL;DR提出了一种将 Transformer 模型与强化学习相结合,并在 BabyAI 任务上表现出色的新方法,其中模型输出既包含动作,也包含文本描述。