从正确性学习,无需提示使 LLM 高效推理
利用 Learning from Mistakes(LeMa)方法,本研究利用大型语言模型(LLMs)对数学问题的解决能力进行改进,仿照人类学习过程中的错误驱动学习机制,通过与 GPT-4 生成的错误更正数据对进行微调,实验证明 LeMa 提升了性能,在 5 个 LLMs 和 2 个数学推理任务中持续改善性能,并在特定 LLMs(如 WizardMath 和 MetaMath)上表现出色,在具有挑战性的任务上超越了开源模型的性能。
Oct, 2023
本文探讨了自我纠错在大型语言模型中的作用和效果,发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应,在某些情况下,性能甚至可能在自我纠正后下降。基于这些发现,提出了未来研究和实际应用的建议。
Oct, 2023
大型语言模型 (LLMs) 的内在自我纠正能力受到了研究,然而,通过掩盖问题中的关键条件,添加当前答案构建验证问题,并预测条件以验证答案的简单但有效的验证方法,提出了逐步识别和纠正可能的错误响应的迭代验证 - 纠正框架,命名为 ProCo。与自我纠正相比,ProCo 在三种推理任务中的性能明显提高。
May, 2024
在小型语言模型上进行自我纠正训练以提高推理能力,通过使用正确解决方案引导模型对不正确的回答进行批判,并使用生成的批评经过筛选后进行自我纠正理由的监督微调,实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升,与 GPT-4 基于验证器的强配对时取得了显著的性能提升,但使用弱自验证器来确定何时进行更正存在一定的限制。
Apr, 2024
聚焦大型语言模型,探索通过自我解释生成复杂问题的过程,发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题,甚至在几个复杂问题回答数据集上优于人工生成的示例。
Nov, 2023
通过精心设计的训练数据、详细分析数学推理中的错误类型并构建了一个自检修正数据集,本研究旨在增强大型语言模型的自检能力,从而提高自我修正的准确性。在与其他检查 - 修正数据相关的情境中,使用 “Step CoT Check” 提示进行微调的模型表现更好,提供更精确的反馈,从而达到更高的正确率。
Feb, 2024
本文将自我纠错过程分解为失误发现和输出校正两个核心组成部分,并对几种最先进的 LLM 进行了基准测试,结果显示 LLM 在发现逻辑错误方面普遍存在困难。针对输出校正,我们提出了一种回溯法,并证明当提供失误位置信息时,该方法能够明显改善性能。我们将回溯法视为轻量级替代强化学习方法的方式,并展示在准确率达到 60-70% 的奖励模型下依然有效。
Nov, 2023
通过引入一种独特的提示策略,名为教育思维链(PedCoT),该研究论文提出了一种有效识别推理错误的方法,并在数学问题中取得了显著优于基线模型的结果。
May, 2024
最近大语言模型(LLM),特别是链式思维(CoT)提示的发明,使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力,无需外部资源。具体而言,我们研究它们是否能够用于识别逐步推理中的个别错误。为此,我们提出了一种零 - shot 验证方案来识别这些错误。然后,我们使用这个验证方案来提高问题回答的性能,通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K,MathQA 和 MATH 上测试了该方法,发现它成功地识别错误,并进而提高了最终的预测性能。
Aug, 2023