SelfCheck: 使用 LLMs 检查自己的逐步推理的零 - shot 方法

Aug, 2023

SelfCheck: 使用 LLMs 检查自己的逐步推理的零 - shot 方法

SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning

Ning Miao, Yee Whye Teh, Tom Rainforth

TL;DR最近大语言模型（LLM），特别是链式思维（CoT）提示的发明，使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力，无需外部资源。具体而言，我们研究它们是否能够用于识别逐步推理中的个别错误。为此，我们提出了一种零 - shot 验证方案来识别这些错误。然后，我们使用这个验证方案来提高问题回答的性能，通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K，MathQA 和 MATH 上测试了该方法，发现它成功地识别错误，并进而提高了最终的预测性能。

Abstract

The recent progress in large language models (LLMs), especially the invention of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning problems. However, even the strongest LLMs are still struggling with more complicated problems that require →

large language models chain-of-thoughts prompting non-linear thinking multi-step reasoning zero-shot verification scheme

发现论文，激发创造

大型语言模型是具有自我验证功能的推理器

提出了一种名为自验证的方法，该方法使用推理链的结论作为条件建立新的样本，并要求大型语言模型重新预测原始条件，从而降低了多任务精度误差。经过大量实验验证，此方法可以使大型语言模型避免出现不正确的推理链干扰，并实现具有竞争力的推理性能，可用于算术和逻辑推理数据集的有限次学习。

Dec, 2022

学会检查：释放大型语言模型中的自我纠正潜能

通过精心设计的训练数据、详细分析数学推理中的错误类型并构建了一个自检修正数据集，本研究旨在增强大型语言模型的自检能力，从而提高自我修正的准确性。在与其他检查 - 修正数据相关的情境中，使用 “Step CoT Check” 提示进行微调的模型表现更好，提供更精确的反馈，从而达到更高的正确率。

Feb, 2024

大型语言模型是零样本推理器

该研究发现预训练的大型语言模型可以成为良好的零样本推理器，提出了一种零样本的 CoT 方法，将其用于多种复杂的推理任务并取得了显著的性能提升。

May, 2022

深入探究大型语言模型在逻辑推理中的自我验证能力

这篇论文研究了大型语言模型在逻辑推理中的自我验证能力，主要关注其准确识别逻辑谬误的能力。通过对包含 232 种谬误的数据集进行实验，发现现有的大型语言模型在准确识别谬误的过程中可能存在困难，并可能不能保证自我验证方法的有效性。论文提出了对未来研究和实际应用自我验证方法的建议。

Nov, 2023

自我解释：教大型语言模型自行推理复杂问题

聚焦大型语言模型，探索通过自我解释生成复杂问题的过程，发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题，甚至在几个复杂问题回答数据集上优于人工生成的示例。

Nov, 2023

LLMs 通过教学思路链找到数学推理错误

通过引入一种独特的提示策略，名为教育思维链（PedCoT），该研究论文提出了一种有效识别推理错误的方法，并在数学问题中取得了显著优于基线模型的结果。

May, 2024

大型语言模型的过度推理和冗余计算

LLMs tend to generate lengthy and unnecessary calculations on the math QA dataset GSM8K-Zero, even though the questions can be answered without any calculations.

Jan, 2024

LLM 是否是严格的逻辑推理者？通过对比逐步解码增强自然语言证明生成

通过引入先进的思维链接策略和分步证明生成对小规模语言模型进行微调，增强了逻辑推理能力，成功提升了语言模型完成复杂推理任务的效果。

Nov, 2023

使用知识图谱直接评估多跳推理中的思路一致性

大型语言模型（LLMs）在生成连贯思路解释时展现出强大的推理能力，然而，之前的研究仅关注于回答的准确性，忽略了生成的连贯思路的正确性。本文通过利用知识图谱（KGs）深入探讨 LLMs 在多跳问题回答中的连贯思路推理能力。我们提出了一种新颖的区分性和生成性连贯思路评估范式，用于评估 LLMs 关于推理的知识和生成连贯思路的准确性。通过在两个多跳问题回答数据集上对 5 个不同家族的 LLMs 进行的实验证明，LLMs 具有足够的知识进行推理，然而，LLMs 生成的连贯思路的准确性与回答的准确性存在显著差异，表明它们经常通过错误的推理方法得出正确的答案。

Feb, 2024

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022