GPT-4 不自知错误：对推理问题的迭代提示分析

Oct, 2023

GPT-4 不自知错误：对推理问题的迭代提示分析

GPT-4 Doesn't Know It's Wrong: An Analysis of Iterative Prompting for Reasoning Problems

Kaya Stechly, Matthew Marquez, Subbarao Kambhampati

TL;DR本研究分析了大规模语言模型在迭代提示下解决图着色问题的能力，发现大规模语言模型在解决图着色问题和验证解答的效果都很差，且无论是来自大规模语言模型还是外部求解器的批评内容对迭代提示的性能影响不大，结果显示现有大规模语言模型的自我批评能力存在问题。

Abstract

There has been considerable divergence of opinion on the reasoning abilities of large language models (LLMs). While the initial optimism that reasoning might emerge automatically with scale has been tempered than

large language models reasoning abilities iterative prompting graph coloring self-critiquing capabilities

发现论文，激发创造

关于大型语言模型在推理和规划任务上的自验证局限性

通过在三个领域（24 点游戏，图着色，STRIPS 规划）对 GPT-4 的表现进行实证研究，我们观察到自我评估导致性能显著下降，而外部验证则带来显著性能提升；然而，评估内容对系统性能并不重要，事实上，简单地使用一个可信的验证器重新提问可以保持大部分优势。

Feb, 2024

探索大型语言模型中图推理的局限性

预训练大型语言模型通过仅基于语言的提示已经展示出各种类型的推理能力。然而，在本文中，我们通过图形推理问题测试了 5 种不同的 LLMs（GPT-4、GPT-3.5、Claude-2、Llama-2 和 Palm-2）的图形推理深度。我们设计了 10 个不同的图形遍历问题，每个问题代表了不断增加的复杂性水平。此外，我们分析了模型在不同设置下的性能，例如图形大小的变化以及不同形式的 k-shot 提示。我们通过此基准测试过程突出了 LLMs 的各种限制、偏见和属性，例如与图中每个节点遍历的自由度平均值呈反比关系，k-shot 提示对图形推理任务的整体负面影响以及积极的响应偏差，这使得 LLMs 无法识别有效解的缺失。最后，我们提出了一种专门针对图形遍历任务设计的新提示技术，称为 PathCompare，它在 LLMs 的性能方面与标准提示和 CoT 相比表现出显着增加。

Feb, 2024

竞赛级问题对 LLMs 的有效性评估

评估大语言模型在 Codeforces 编程问题上的推理能力，发现了潜在的数据污染问题，并探索了多种方法来解决这些挑战，强调了评估 LLMs 真正推理能力的重要性和未来更强大推理能力和更好泛化性能的发展。

Dec, 2023

大型语言模型通过自我批判自我提升的真的有效吗？

几乎不存在自我评估的大型语言模型能够成功地在迭代模式下验证或自我批评其候选解决方案的推理问题中。该研究评估了一种利用大型语言模型进行计划生成和验证的计划系统，发现自我批评似乎削弱了计划生成的性能，并且系统的可靠性受到 LLM 验证器产生的显著错误结果的影响，二进制或详细反馈对计划生成几乎没有影响。总体而言，这些结果对于 LLMs 在计划任务的自我批评迭代框架中的有效性产生了质疑。

Oct, 2023

增强大型语言模型的推理能力：一种基于图形的验证方法

我们引入了一种基于图的方法来增强大型语言模型的推理能力，通过分析和验证由 LLMs 生成的解决方案，我们的实验结果表明，我们的基于图的验证方法不仅显著提高了 LLMs 的推理能力，而且在提高这些模型的推理性能方面优于现有的验证程序。

Aug, 2023

自我确信的激励机制：反复审视下的少样本问答

利用大规模预训练语言模型，通过迭代增强和定制提示来提升其在复杂任务中的性能。

Oct, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

揭示致命缺陷：评估 LLM 在数学推理中处理错误的能力

通过引入一个包含正确和错误推理步骤的新数据集 MWP-MISTAKE，本研究重点探讨了大型语言模型在检测和纠正推理错误方面的能力，并通过全面的基准测试揭示了目前最先进模型（如 GPT-4o，GPT-4，GPT-3.5Turbo 等）的优点和缺点。此外，我们还发现涉及数据污染和记忆的问题，影响了大型语言模型在实际应用中的可靠性，因此强调了对推理过程进行严格评估的重要性，并提出了提高大型语言模型在数学问题解决中泛化性和鲁棒性的未来方向。

Jun, 2024

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

诊断推理提示揭示了在医学领域中大型语言模型可解释性的潜力

GPT4 可以通过使用诊断推理提示模拟临床医生的常见临床推理过程，而不会损失诊断准确性，因此它可以为医生提供评估 LLMs 是否可信赖用于患者护理的手段。新的提示方法有潜力揭示 LLMs 的黑盒子，将它们推向在医学中安全有效使用的一步。

Aug, 2023