关于大型语言模型在推理和规划任务上的自验证局限性

Feb, 2024

关于大型语言模型在推理和规划任务上的自验证局限性

On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks

Kaya Stechly, Karthik Valmeekam, Subbarao Kambhampati

TL;DR通过在三个领域（24 点游戏，图着色，STRIPS 规划）对 GPT-4 的表现进行实证研究，我们观察到自我评估导致性能显著下降，而外部验证则带来显著性能提升；然而，评估内容对系统性能并不重要，事实上，简单地使用一个可信的验证器重新提问可以保持大部分优势。

Abstract

There has been considerable divergence of opinion on the reasoning abilities of large language models (LLMs). While the initial optimism that reasoning might emerge automatically with scale has been tempered than

large language models reasoning abilities iterative prompting gpt-4 performance collapse

发现论文，激发创造

大型语言模型通过自我批判自我提升的真的有效吗？

几乎不存在自我评估的大型语言模型能够成功地在迭代模式下验证或自我批评其候选解决方案的推理问题中。该研究评估了一种利用大型语言模型进行计划生成和验证的计划系统，发现自我批评似乎削弱了计划生成的性能，并且系统的可靠性受到 LLM 验证器产生的显著错误结果的影响，二进制或详细反馈对计划生成几乎没有影响。总体而言，这些结果对于 LLMs 在计划任务的自我批评迭代框架中的有效性产生了质疑。

Oct, 2023

GPT-4 不自知错误：对推理问题的迭代提示分析

本研究分析了大规模语言模型在迭代提示下解决图着色问题的能力，发现大规模语言模型在解决图着色问题和验证解答的效果都很差，且无论是来自大规模语言模型还是外部求解器的批评内容对迭代提示的性能影响不大，结果显示现有大规模语言模型的自我批评能力存在问题。

Oct, 2023

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

深入探究大型语言模型在逻辑推理中的自我验证能力

这篇论文研究了大型语言模型在逻辑推理中的自我验证能力，主要关注其准确识别逻辑谬误的能力。通过对包含 232 种谬误的数据集进行实验，发现现有的大型语言模型在准确识别谬误的过程中可能存在困难，并可能不能保证自我验证方法的有效性。论文提出了对未来研究和实际应用自我验证方法的建议。

Nov, 2023

增强大型语言模型的推理能力：一种基于图形的验证方法

我们引入了一种基于图的方法来增强大型语言模型的推理能力，通过分析和验证由 LLMs 生成的解决方案，我们的实验结果表明，我们的基于图的验证方法不仅显著提高了 LLMs 的推理能力，而且在提高这些模型的推理性能方面优于现有的验证程序。

Aug, 2023

大型语言模型是具有自我验证功能的推理器

提出了一种名为自验证的方法，该方法使用推理链的结论作为条件建立新的样本，并要求大型语言模型重新预测原始条件，从而降低了多任务精度误差。经过大量实验验证，此方法可以使大型语言模型避免出现不正确的推理链干扰，并实现具有竞争力的推理性能，可用于算术和逻辑推理数据集的有限次学习。

Dec, 2022

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

大型语言模型的规划能力 - 一项关键调查

本文旨在研究 LLLms 在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估 LLMs 在自主规划和启发式两种不同模式下的表现，发现 LLMs 在自主规划方面的表现非常有限，但在启发式模式下，LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

探索大型语言模型中图推理的局限性

预训练大型语言模型通过仅基于语言的提示已经展示出各种类型的推理能力。然而，在本文中，我们通过图形推理问题测试了 5 种不同的 LLMs（GPT-4、GPT-3.5、Claude-2、Llama-2 和 Palm-2）的图形推理深度。我们设计了 10 个不同的图形遍历问题，每个问题代表了不断增加的复杂性水平。此外，我们分析了模型在不同设置下的性能，例如图形大小的变化以及不同形式的 k-shot 提示。我们通过此基准测试过程突出了 LLMs 的各种限制、偏见和属性，例如与图中每个节点遍历的自由度平均值呈反比关系，k-shot 提示对图形推理任务的整体负面影响以及积极的响应偏差，这使得 LLMs 无法识别有效解的缺失。最后，我们提出了一种专门针对图形遍历任务设计的新提示技术，称为 PathCompare，它在 LLMs 的性能方面与标准提示和 CoT 相比表现出显着增加。

Feb, 2024

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024