S$^3$c-Math：自发逐步自我修正使大型语言模型成为更好的数学推理者

Sep, 2024

S$^3$c-Math：自发逐步自我修正使大型语言模型成为更好的数学推理者

S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners

Yuchen Yan, Jin Jiang, Yang Liu, Yixin Cao, Xin Xu...

TL;DR该研究解决了大型语言模型在数学推理中的自我修正能力不足的问题。提出了一种称为S$^3$c-Math的数学LLM系列，能够自发地进行逐步自我修正，识别并纠正推理过程中的错误，从而提升推理的可靠性。研究结果显示，该方法在GSM8K、MATH等数学基准测试中表现显著优越，推动了LLM在数学推理领域的进步。

Abstract

Self-correction is a novel method that can stimulate the potential reasoning abilities of large Language models (LLMs). It involves detecting and correcting errors during the inference process when LLMs solve rea

发现论文，激发创造

大型语言模型是具有自我验证功能的推理器

提出了一种名为自验证的方法，该方法使用推理链的结论作为条件建立新的样本，并要求大型语言模型重新预测原始条件，从而降低了多任务精度误差。经过大量实验验证，此方法可以使大型语言模型避免出现不正确的推理链干扰，并实现具有竞争力的推理性能，可用于算术和逻辑推理数据集的有限次学习。

Dec, 2022

自我打磨：通过问题优化增强大型语言模型的推理能力

该研究提出了一种名为Self-Polish的新方法，旨在通过引导模型逐步精炼给定的问题，以提高其问题解决能力，与其他提示方法正交，有效地提高了针对不同数据集的Few-Shot学习和CoT模型的表现。

May, 2023

学会检查：释放大型语言模型中的自我纠正潜能

通过精心设计的训练数据、详细分析数学推理中的错误类型并构建了一个自检修正数据集，本研究旨在增强大型语言模型的自检能力，从而提高自我修正的准确性。在与其他检查-修正数据相关的情境中，使用“Step CoT Check”提示进行微调的模型表现更好，提供更精确的反馈，从而达到更高的正确率。

Feb, 2024

ChatGLM-Math: 使用自我批评流程提高大型语言模型在数学问题求解中的能力

通过自我评审流程，大型语言模型（LLMs）能够在保持语言能力的同时提升数学问题解决能力，从而有效增强LLMs在实际应用中的性能。

Apr, 2024

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与GPT-4基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

大型语言模型可轻松自我修正

大型语言模型(LLMs)的内在自我纠正能力受到了研究，然而，通过掩盖问题中的关键条件，添加当前答案构建验证问题，并预测条件以验证答案的简单但有效的验证方法，提出了逐步识别和纠正可能的错误响应的迭代验证-纠正框架，命名为ProCo。与自我纠正相比，ProCo在三种推理任务中的性能明显提高。

May, 2024

评估大型语言模型的数学推理能力：重点关注错误识别和纠正

我们通过定义四个评估任务，并设计多样的提示来全面评估十一种代表性的LLM模型，从考官的角度出发，为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明GPT-4在所有模型中表现最佳，而开源模型LLaMA-2-7B的能力与闭源模型GPT-3.5和Gemini Pro相当。尤其是计算错误被证明是最具挑战性的错误类型。此外，使用错误类型提示LLM可以将平均修正准确率提高47.9%。这些结果揭示了开发LLM的数学推理能力的潜在方向。

Jun, 2024

语言模型的物理学：第二部分2.2，如何从小学数学问题的错误中学习

本研究解决了语言模型在推理任务中偶尔出现的错误问题。通过将“错误修正”数据直接引入预训练阶段，本文展示了该方法相比使用无误数据的预训练，能够显著提高语言模型的推理准确性，具有广泛的潜在影响。研究发现，此技术可实现单次自回归而无需多轮提示，从而简化推理过程。

Aug, 2024

通过加权推理增强语言模型推理能力

本研究针对大型语言模型在推理任务中表现不佳的问题，提出了一种改进的自一致性框架，旨在加强模型的推理能力。通过将多条推理路径的详细分析与最终决策结合，该方法显著提高了复杂推理任务中的模型性能和推理路径的可靠性。

Oct, 2024

将自我修正嵌入大型语言模型的固有能力以增强数学推理

本研究解决了大型语言模型在数学推理中面临的准确性问题，通过提出一种新机制“自我修正链”(CoSC)，使模型能够自我验证和修正输出。这一迭代的自我修正过程显著提升了模型在数学推理任务中的表现，特别是在传统数学数据集上取得了超过现有知名模型的成果。

Oct, 2024