May, 2023

利用验证器提高预训练语言模型的规划能力

TL;DR本论文通过使用 GPT-2 实验来证明,预训练的大型语言模型在计划方面的表现较差,研究人员首先建立了一个验证器在特定状态下对行动的适用性进行分类,然后在生成器中随机抽样无效动作来训练验证器,在生成器和验证器的共同作用下,取得了不错的成果。