May, 2024

语言模型中忠实与不忠实推理的分离

TL;DR大型语言模型(LLMs)在输出答案之前生成思维链推理文本可以提高其在下游任务中的性能。我们的研究调查了 LLMs 在思维链中出现错误时如何还原并最终得出正确答案,我们发现存在思维链不忠实的证据,但我们也找到了许多明确的忠实错误还原行为。我们确定了影响 LLM 还原行为的因素:LLMs 在明显的错误和能提供更多正确答案证据的情境中更频繁地还原。然而,不忠实的还原行为则表现相反,在更困难的错误位置更频繁地发生。我们的研究结果显示,驱动忠实和不忠实错误还原的机制是不同的,这对 LLM 的推理是一个统一、连贯过程的观点提出了挑战。