大型语言模型中的后向推理用于验证

Aug, 2023

大型语言模型中的后向推理用于验证

Backward Reasoning in Large Language Models for Verification

Weisen Jiang, Han Shi, Longhui Yu, Zhengying Liu, Yu Zhang...

TL;DR提出了一种结合前向和后向推理的新方法，称为 FOBAR，通过用简单模板生成问题并要求 LLM 预测被掩码的标记来验证候选答案，实验证明 FOBAR 在各种推理基准上达到了最先进的性能。

Abstract

Chain-of-Though (CoT) prompting has shown promising performance in various reasoning tasks. Recently, self-consistency \citep{wang2023selfconsistency} proposes to sample a diverse set of reasoning chains which may lead to different answers while the answer that receives the most votes

chain-of-thought self-consistency backward reasoning llm fobar

发现论文，激发创造

让推理有意义：衡量和提升思考推理的可靠性

通过对十二个大型语言模型进行因果中介分析，本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题，我们引入了 FRODO 框架，该框架通过使用隐式因果奖励函数生成正确的推理步骤，以及通过因果和对抗优化目标忠实地进行推理。实验证明，FRODO 显著优于其他四个基线方法，提高了推理语言模型的鲁棒性和泛化能力，在分布外测试集上表现更好。最后，我们发现 FRODO 的解释对最终答案的预测更加可靠。

Feb, 2024

填空题：探索和增强 LLM 在数学应用问题中倒向推理的能力

本文研究倒向推理任务在数学问题中的应用，并提出了三种新技术以及一种基于贝叶斯公式的集成方法，这些方法显著提高了语言模型在倒向推理任务上的性能。

Oct, 2023

回答知识密集型复杂问题的概率思维推理

大型语言模型（LLMs）能够用链式思维推理回答知识密集型复杂问题，但当模型的参数中缺少所需的知识或不是最新的时，它们往往会产生错误的推理步骤。本文提出一种新方法：概率思维树推理（ProbTree）。在开放领域的情境下，我们利用外部知识检索加强链式推理，通过解决从叶节点到根节点的问题，考虑问题分解和回答的置信度，在推理过程中消除了负面检索问题，并借助层次结构对非叶节点进行全局推理，从而弥补了局部错误。实验证明，我们的方法在三个复杂问答数据集上显著优于最先进方法，证明了概率思维树推理的有效性。

Nov, 2023

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

大型语言模型是具有自我验证功能的推理器

提出了一种名为自验证的方法，该方法使用推理链的结论作为条件建立新的样本，并要求大型语言模型重新预测原始条件，从而降低了多任务精度误差。经过大量实验验证，此方法可以使大型语言模型避免出现不正确的推理链干扰，并实现具有竞争力的推理性能，可用于算术和逻辑推理数据集的有限次学习。

Dec, 2022

SymBa：用于多步自然语言推理的符号式向后推理

通过引入符号性的自上而下求解器，与大型语言模型的集成，SymBa 在多步推理基准测试中（ProofWriter，Birds-Electricity，GSM8k，CLUTRR-TF，ECtHR Article 6）相对于基线算法实现了性能、证明准确性和效率的显著提升。

Feb, 2024

RCOT：通过逆向思路链来检测和纠正推理中的事实不一致性

本文提出了一种新方法 RCoT，通过自动检测和纠正 LLMs 生成的解决方案中的事实不一致性，以 fine-grained feedback 指导 LLMs 修改解决方案，从而改进 LLMs 在算术推理任务中的推理能力。实验结果表明，RCoT 相对于标准的 CoT 在七个算术数据集上有一致的改进。此外，发现手动编写的精细反馈可以显着提高 LLMs 的推理能力，并鼓励社区进一步探索 fine-grained feedback 生成方法。

May, 2023

SelfCheck: 使用 LLMs 检查自己的逐步推理的零 - shot 方法

最近大语言模型（LLM），特别是链式思维（CoT）提示的发明，使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力，无需外部资源。具体而言，我们研究它们是否能够用于识别逐步推理中的个别错误。为此，我们提出了一种零 - shot 验证方案来识别这些错误。然后，我们使用这个验证方案来提高问题回答的性能，通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K，MathQA 和 MATH 上测试了该方法，发现它成功地识别错误，并进而提高了最终的预测性能。

Aug, 2023

我们能为错误答案检测逐步验证吗？

通过对推理链和性能的关系的研究，我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE，该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分（PDS）框架，充分利用多个推理链的信息，相比答案检查基准线，平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1％。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。

Feb, 2024

瞄准内部一致性：对语言模型进行推理校准

通过检查中间层解码的潜在预测的一致性，我们提出了内部一致性作为模型信心的度量，这有效地区分了正确和错误的推理路径，并通过加权具有高内部一致性的推理路径来调整链式推理，从而显著提高了推理性能。我们的结果表明，内部表示的使用可以将 LLMs 自我评估的潜力展现出来。

May, 2024