深入探究大型语言模型在逻辑推理中的自我验证能力
提出了一种名为自验证的方法,该方法使用推理链的结论作为条件建立新的样本,并要求大型语言模型重新预测原始条件,从而降低了多任务精度误差。经过大量实验验证,此方法可以使大型语言模型避免出现不正确的推理链干扰,并实现具有竞争力的推理性能,可用于算术和逻辑推理数据集的有限次学习。
Dec, 2022
通过在三个领域(24 点游戏,图着色,STRIPS 规划)对 GPT-4 的表现进行实证研究,我们观察到自我评估导致性能显著下降,而外部验证则带来显著性能提升;然而,评估内容对系统性能并不重要,事实上,简单地使用一个可信的验证器重新提问可以保持大部分优势。
Feb, 2024
在小型语言模型上进行自我纠正训练以提高推理能力,通过使用正确解决方案引导模型对不正确的回答进行批判,并使用生成的批评经过筛选后进行自我纠正理由的监督微调,实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升,与 GPT-4 基于验证器的强配对时取得了显著的性能提升,但使用弱自验证器来确定何时进行更正存在一定的限制。
Apr, 2024
最近大语言模型(LLM),特别是链式思维(CoT)提示的发明,使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力,无需外部资源。具体而言,我们研究它们是否能够用于识别逐步推理中的个别错误。为此,我们提出了一种零 - shot 验证方案来识别这些错误。然后,我们使用这个验证方案来提高问题回答的性能,通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K,MathQA 和 MATH 上测试了该方法,发现它成功地识别错误,并进而提高了最终的预测性能。
Aug, 2023
本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识,从而提高语言模型的逻辑推理能力,取得了比现有基线更好的效果。
May, 2023
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。
Apr, 2024
大型语言模型 (LLMs) 在很多推理任务中表现出良好的性能,但在某些复杂推理任务,特别是逻辑推理方面仍然存在困难。为了评估 LLMs 的逻辑谬误理解能力 (LFU),我们在本文中从 WHAT、WHY 和 HOW 三个认知维度中提出了五个具体任务。为了解决这些 LFU 任务,我们成功构建了一个新的基于 GPT-4 的数据集 LFUD,只需少量人工参与。我们的广泛实验证明,我们的 LFUD 不仅可以用于评估 LLMs 的 LFU 能力,还可以通过微调 LLMs 在逻辑推理方面获得显著的性能提升。
Apr, 2024
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
我们引入了一种基于图的方法来增强大型语言模型的推理能力,通过分析和验证由 LLMs 生成的解决方案,我们的实验结果表明,我们的基于图的验证方法不仅显著提高了 LLMs 的推理能力,而且在提高这些模型的推理性能方面优于现有的验证程序。
Aug, 2023
本文针对大型语言模型的逻辑推理能力进行全面评估,选择 15 个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出 LLMs 的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023