May, 2023

带判别器引导的语言模型多步推理

TL;DR该研究提出了一种基于 stepwise decoding 方法的 Guiding Multi-step ReAsoning with a CorrectnEss Discriminator (GRACE) ,它使用判别模型来调整 LM 的解码策略,从而提高多步推理的准确性。与传统解码策略相比,GRACE 在四个流行的数学推理基准测试中均表现出显著的改进。