链状探测：逐步审查 CoT 的必要性和准确性

Jun, 2024

链状探测：逐步审查 CoT 的必要性和准确性

Chain-of-Probe: Examing the Necessity and Accuracy of CoT Step-by-Step

Zezhong Wang, Xingshan Zeng, Weiwen Liu, Yufei Wang, Liangyou Li...

TL;DR当前研究发现了大型语言模型中的早期回答问题，即模型在生成思维链之前已经有了答案，这表明预测答案和推理过程之间可能存在必要的依赖缺失。为了解决这些问题，我们提出了一种名为 Chain-of-Probe（CoP）的方法，用于探究模型推理过程中的思维变化。探测结果显示，在许多问题 - 答案案例中，Chain-of-Thought 似乎是不必要的，这种必要性与任务的简单性相关，由所需的推理步骤定义。此外，通过分析思维变化中的模式，我们检验了模型推理的正确性。验证结果显示，虽然最终答案是正确的，但很多回答在推理过程中存在错误。为此，我们提出了一种基于 CoP 的策略方法，以优先考虑具有正确推理的答案，从而增强模型推理的可靠性。

Abstract

Current research found the issue of early answering in large language models (LLMs), where the models already have an answer before generating the →

early answering large language models chain-of-thought chain-of-probe reasoning process

发现论文，激发创造

走向理解思路链提示：对重要性的经验研究

本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到 80-90% 的性能，并探究了其他理性方面的影响。

Dec, 2022

我们能为错误答案检测逐步验证吗？

通过对推理链和性能的关系的研究，我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE，该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分（PDS）框架，充分利用多个推理链的信息，相比答案检查基准线，平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1％。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。

Feb, 2024

基于视图的 Hopfield 解释的思维链推理

通过分析在不同设置下的 CoT 方法，从 Hopfieldian 视角提出了 Read-and-Control 方法，通过广泛实验验证了该框架对于理解 CoT、识别推理错误和控制正确推理路径的能力。

Jun, 2024

思维的连锁：计划中 CoT 的分析

根据 Blocksworld 的案例研究，通过链式思维问题可以提高大型语言模型的性能，但需要高度问题特定的提示，并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。

May, 2024

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

揭示思维链背后的谜团：理论视角

研究表明 Chain-of-Thought 提示可以显著改善大型语言模型的性能，特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨，然后通过构建的方式证明了带有 CoT 的自回归机器人可以解决基本算术方程问题和决策制定问题，并且具有动态编程方面的潜在应用。

May, 2023

大型语言模型中的模式感知思维链激励

链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法，通过在中间步骤中结合步长和推理过程等模式，有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准任务的实验，结果表明我们的方法大大提高了推理性能，并且对错误表现出鲁棒性。代码将公开提供。

Apr, 2024

大型语言模型的思路链测试

通过对 Chain-of-Thought（CoT）提示方式的研究，我们发现 CoT 的正确操作和数值是 GPT-3 在各种任务中获得准确答案的关键，而错误操作会对性能产生负面影响，这项研究加深了我们对 CoT 提示方式的理解，也提出了有关大语言模型在上下文中学习推理能力的新问题。

Sep, 2023

迈向更好的思路链引导策略：调研

我们对 Chain-of-Thought (CoT) 的关键因素进行了系统和全面的分析，介绍了如何在不同应用中更好地应用 CoT 提示，并提出了一些建议和未来的研究方向。

Oct, 2023

使用链式知识提示提升语言模型推理能力

引入了一种新的 Chain-of-Knowledge (CoK) 提示方法，旨在引导强大的语言模型（LLMs）生成显式的知识证明作为结构三元组，从而改进 Commonsense、事实、符号和算术推理任务的性能，并引入 F^2-Verification 方法估计链的可靠性

Jun, 2023