Nov, 2023

LLMs 不能发现推理错误,但可以修正它们!

TL;DR本文将自我纠错过程分解为失误发现和输出校正两个核心组成部分,并对几种最先进的 LLM 进行了基准测试,结果显示 LLM 在发现逻辑错误方面普遍存在困难。针对输出校正,我们提出了一种回溯法,并证明当提供失误位置信息时,该方法能够明显改善性能。我们将回溯法视为轻量级替代强化学习方法的方式,并展示在准确率达到 60-70% 的奖励模型下依然有效。