LLMs 通过教学思路链找到数学推理错误
通过使用迭代的引导选择,我们介绍了迭代链式思考(Iter-CoT)方法,该方法可以使大型语言模型(LLM)自主纠正错误,同时选择具有适度难度的挑战性问题作为样本,从而增强 LLM 对于不同难度的推理任务的泛化能力。实验结果表明 Iter-CoT 方法在 11 个数据集上展现出卓越的性能表现。
Apr, 2023
使用大型语言模型来生成 Prolog 程序以解决数学问题,在 GSM8K 基准测试中,我们的 Prolog 算术问题解决方法在三个不同的大型语言模型中胜过了 Chain of Thought。我们提出对真值谓词进行排列组合,以通过数据增强方法来增加训练的健壮性。
May, 2024
通过对推理链和性能的关系的研究,我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE,该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分(PDS)框架,充分利用多个推理链的信息,相比答案检查基准线,平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1%。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。
Feb, 2024
研究表明 Chain-of-Thought 提示可以显著改善大型语言模型的性能,特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨, 然后通过构建的方式证明了带有 CoT 的自回归机器人可以解决基本算术方程问题和决策制定问题,并且具有动态编程方面的潜在应用。
May, 2023
本文提出了一种新方法 RCoT,通过自动检测和纠正 LLMs 生成的解决方案中的事实不一致性,以 fine-grained feedback 指导 LLMs 修改解决方案,从而改进 LLMs 在算术推理任务中的推理能力。实验结果表明,RCoT 相对于标准的 CoT 在七个算术数据集上有一致的改进。此外,发现手动编写的精细反馈可以显着提高 LLMs 的推理能力,并鼓励社区进一步探索 fine-grained feedback 生成方法。
May, 2023
本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响,发现即使使用无效的推理步骤,其提示也能达到 80-90% 的性能,并探究了其他理性方面的影响。
Dec, 2022
引入了一种新的 Chain-of-Knowledge (CoK) 提示方法,旨在引导强大的语言模型(LLMs)生成显式的知识证明作为结构三元组,从而改进 Commonsense、事实、符号和算术推理任务的性能,并引入 F^2-Verification 方法估计链的可靠性
Jun, 2023
本论文提出一种基于链式推理的自动提问方法 Auto-CoT,通过采样具有多样性的问题并生成推理链来构建演示,在十项公共基准推理任务中,Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。
Oct, 2022
最近大语言模型(LLM),特别是链式思维(CoT)提示的发明,使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力,无需外部资源。具体而言,我们研究它们是否能够用于识别逐步推理中的个别错误。为此,我们提出了一种零 - shot 验证方案来识别这些错误。然后,我们使用这个验证方案来提高问题回答的性能,通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K,MathQA 和 MATH 上测试了该方法,发现它成功地识别错误,并进而提高了最终的预测性能。
Aug, 2023
本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架,通过使用外部知识来编辑推理链以提高其准确性,改善了大语言模型中存在的缺陷,实现了在多个开放型问题回答任务中的准确度提升。
May, 2023