利用大型语言模型进行忠实推理
在这篇论文中,我们通过探索一种机械化方法来回答语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问。我们引入了一种新的探测方法(称为机械化探测器),从模型的注意力模式中恢复推理树,用于分析两个语言模型:GPT-2 在一个合成任务(第 k 个最小元素)上以及 LLaMA 在两个简单的基于语言的推理任务(ProofWriter 和 AI2 推理挑战)上。我们展示了机械化探测器能够在大多数示例中从模型的注意力中检测到推理树的信息,这表明在许多情况下语言模型确实在其架构中经历了一个多步推理的过程。
Oct, 2023
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
大型语言模型可以通过为其预测生成理由来解决复杂的推理任务。通过将这些功能融入到较小、紧凑的模型中,可以促进为特定任务量身定制的专门、经济高效的模型的创建。然而,较小的模型在复杂的推理任务中常常面临挑战,并且通常会偏离正确的推理路径。我们发现,只有在恰当的时机介入,大型语言模型才能指导较小的模型并将它们带回正确的推理路径。我们发现,较小的模型在推理方面主要因为难以启动过程而失败,引导它们朝正确的方向发展可以使性能提高 100% 以上。我们探索不同的模型大小并评估提供指导以改善较小模型推理能力的益处。
Nov, 2023
本文对大型语言模型在逻辑推理方面进行了全面评估,提出了一种基于选择和推理的框架,可以在不进行微调的情况下改进性能,并伴随着因果自然语言推理过程的答案。
May, 2022
通过对十二个大型语言模型进行因果中介分析,本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题,我们引入了 FRODO 框架,该框架通过使用隐式因果奖励函数生成正确的推理步骤,以及通过因果和对抗优化目标忠实地进行推理。实验证明,FRODO 显著优于其他四个基线方法,提高了推理语言模型的鲁棒性和泛化能力,在分布外测试集上表现更好。最后,我们发现 FRODO 的解释对最终答案的预测更加可靠。
Feb, 2024
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
通过探索不同的思维链和验证推理过程中的各个步骤,我们提出了三个模型应遵循的原则(相关性、数学准确性和逻辑一致性),并将这些原则应用于大型语言模型的推理步骤,以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成,我们在 4 种不同类型的推理任务上评估了我们的方法,涵盖了共计 9 个不同的数据集。实验证明,我们的方法始终优于基准生成,并且在 9 个数据集中的 6 个数据集中,优于最佳的 N 个采样方法。
Apr, 2024
大型语言模型具有出色的能力来执行需要思考过程的任务,本研究引入了一种新颖且可解释的分析方法,探讨了大型语言模型内部的多跳推理过程,揭示了模型通过简单线性变换来建模组合推理问题的预测过程,并且发现网络的中间层生成高度可解释的嵌入,代表了多跳问题的一组潜在中间答案,这些观察结果揭示了平行推理路径的存在,即使模型缺少解决任务所需的知识,这些结果有助于揭示大型语言模型解决推理任务的策略,并提供了人工智能所能产生的思维过程类型的见解,最后还讨论了认知建模的这些结果的含义。
Jun, 2024
大型语言模型(LLMs)存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题,确定了集中式推理和分布式推理两种推理范式,并发现它们与忠实性的关系。随后,我们对环境、CoT 和答案之间的因果关系进行了联合分析。结果证明,当 LLM 预测答案时,它可以从上下文中回忆起 CoT 中缺失的正确信息,导致不忠实的问题。最后,我们提出了推理桥接方法来缓解这个问题,其中我们使用归因方法来作为 CoT 生成的提示并根据其语义一致性和归因分数过滤噪声 CoTs。大量实验证明我们的方法有效地减轻了不忠实的 CoT 问题。
May, 2024