我们能为错误答案检测逐步验证吗？

Feb, 2024

我们能为错误答案检测逐步验证吗？

Can We Verify Step by Step for Incorrect Answer Detection?

Xin Xu, Shizhe Diao, Can Yang, Yang Wang

TL;DR通过对推理链和性能的关系的研究，我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE，该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分（PDS）框架，充分利用多个推理链的信息，相比答案检查基准线，平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1％。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。

Abstract

Chain-of-Thought (CoT) prompting has marked a significant advancement in enhancing the reasoning capabilities of large language models (LLMs). Previous studies have developed various extensions of CoT, which focus primarily on enhancing end-task performance. In addition, there has been research on assessing the quality of →

chain-of-thought prompting reasoning chains benchmark r2pe process discernibility score (pds)open-domain qa accuracy

发现论文，激发创造

验证和编辑：一种知识增强的思维链框架

本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架，通过使用外部知识来编辑推理链以提高其准确性，改善了大语言模型中存在的缺陷，实现了在多个开放型问题回答任务中的准确度提升。

May, 2023

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

LLMs 通过教学思路链找到数学推理错误

通过引入一种独特的提示策略，名为教育思维链（PedCoT），该研究论文提出了一种有效识别推理错误的方法，并在数学问题中取得了显著优于基线模型的结果。

May, 2024

链状探测：逐步审查 CoT 的必要性和准确性

当前研究发现了大型语言模型中的早期回答问题，即模型在生成思维链之前已经有了答案，这表明预测答案和推理过程之间可能存在必要的依赖缺失。为了解决这些问题，我们提出了一种名为 Chain-of-Probe（CoP）的方法，用于探究模型推理过程中的思维变化。探测结果显示，在许多问题 - 答案案例中，Chain-of-Thought 似乎是不必要的，这种必要性与任务的简单性相关，由所需的推理步骤定义。此外，通过分析思维变化中的模式，我们检验了模型推理的正确性。验证结果显示，虽然最终答案是正确的，但很多回答在推理过程中存在错误。为此，我们提出了一种基于 CoP 的策略方法，以优先考虑具有正确推理的答案，从而增强模型推理的可靠性。

Jun, 2024

走向理解思路链提示：对重要性的经验研究

本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到 80-90% 的性能，并探究了其他理性方面的影响。

Dec, 2022

使用链式知识提示提升语言模型推理能力

引入了一种新的 Chain-of-Knowledge (CoK) 提示方法，旨在引导强大的语言模型（LLMs）生成显式的知识证明作为结构三元组，从而改进 Commonsense、事实、符号和算术推理任务的性能，并引入 F^2-Verification 方法估计链的可靠性

Jun, 2023

链条思维推理中的忠实性测量

在大型语言模型中，通过分析模型预测的变化，研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响，但随着模型规模的增大，模型对大多数任务的推理越来越不可信，因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。

Jul, 2023

思维链的强弱取决于最薄弱一环：推理链验证器的基准评估

我们引入了 Reveal：推理验证评估，这是一个新的数据集，用于在开放域问题回答设置中评估复杂的链式推理的自动验证器，包括语言模型的答案中每个推理步骤的相关性、证据归因和逻辑正确性的全面标签。

Feb, 2024

RCOT：通过逆向思路链来检测和纠正推理中的事实不一致性

本文提出了一种新方法 RCoT，通过自动检测和纠正 LLMs 生成的解决方案中的事实不一致性，以 fine-grained feedback 指导 LLMs 修改解决方案，从而改进 LLMs 在算术推理任务中的推理能力。实验结果表明，RCoT 相对于标准的 CoT 在七个算术数据集上有一致的改进。此外，发现手动编写的精细反馈可以显着提高 LLMs 的推理能力，并鼓励社区进一步探索 fine-grained feedback 生成方法。

May, 2023

大型语言模型中的模式感知思维链激励

链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法，通过在中间步骤中结合步长和推理过程等模式，有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准任务的实验，结果表明我们的方法大大提高了推理性能，并且对错误表现出鲁棒性。代码将公开提供。

Apr, 2024