我们能为错误答案检测逐步验证吗?
本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架,通过使用外部知识来编辑推理链以提高其准确性,改善了大语言模型中存在的缺陷,实现了在多个开放型问题回答任务中的准确度提升。
May, 2023
提出 Faithful CoT 框架以实现准确性和真实性的协同作用,通过将推理任务分解为翻译和问题求解两个阶段,使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。
Jan, 2023
通过引入一种独特的提示策略,名为教育思维链(PedCoT),该研究论文提出了一种有效识别推理错误的方法,并在数学问题中取得了显著优于基线模型的结果。
May, 2024
当前研究发现了大型语言模型中的早期回答问题,即模型在生成思维链之前已经有了答案,这表明预测答案和推理过程之间可能存在必要的依赖缺失。为了解决这些问题,我们提出了一种名为 Chain-of-Probe(CoP)的方法,用于探究模型推理过程中的思维变化。探测结果显示,在许多问题 - 答案案例中,Chain-of-Thought 似乎是不必要的,这种必要性与任务的简单性相关,由所需的推理步骤定义。此外,通过分析思维变化中的模式,我们检验了模型推理的正确性。验证结果显示,虽然最终答案是正确的,但很多回答在推理过程中存在错误。为此,我们提出了一种基于 CoP 的策略方法,以优先考虑具有正确推理的答案,从而增强模型推理的可靠性。
Jun, 2024
本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响,发现即使使用无效的推理步骤,其提示也能达到 80-90% 的性能,并探究了其他理性方面的影响。
Dec, 2022
引入了一种新的 Chain-of-Knowledge (CoK) 提示方法,旨在引导强大的语言模型(LLMs)生成显式的知识证明作为结构三元组,从而改进 Commonsense、事实、符号和算术推理任务的性能,并引入 F^2-Verification 方法估计链的可靠性
Jun, 2023
在大型语言模型中,通过分析模型预测的变化,研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响,但随着模型规模的增大,模型对大多数任务的推理越来越不可信,因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。
Jul, 2023
我们引入了 Reveal:推理验证评估,这是一个新的数据集,用于在开放域问题回答设置中评估复杂的链式推理的自动验证器,包括语言模型的答案中每个推理步骤的相关性、证据归因和逻辑正确性的全面标签。
Feb, 2024
本文提出了一种新方法 RCoT,通过自动检测和纠正 LLMs 生成的解决方案中的事实不一致性,以 fine-grained feedback 指导 LLMs 修改解决方案,从而改进 LLMs 在算术推理任务中的推理能力。实验结果表明,RCoT 相对于标准的 CoT 在七个算术数据集上有一致的改进。此外,发现手动编写的精细反馈可以显着提高 LLMs 的推理能力,并鼓励社区进一步探索 fine-grained feedback 生成方法。
May, 2023
链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法,通过在中间步骤中结合步长和推理过程等模式,有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准任务的实验,结果表明我们的方法大大提高了推理性能,并且对错误表现出鲁棒性。代码将公开提供。
Apr, 2024