自回归语言模型中的三段论推理的机制解释

Aug, 2024

自回归语言模型中的三段论推理的机制解释

A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models

Geonhee Kim, Marco Valentino, André Freitas

TL;DR本研究解决了自回归语言模型在逻辑推理中是否真正学习到系统推理原则的争议。通过电路发现方法，本研究揭示了一个必要且充分的电路，阐明了模型如何从前提中推导有效结论的过程，并分析了信念偏差在三段论推理中的表现。研究结果表明，语言模型确实学习了可转移的内容独立推理机制，但这些机制受到前期训练获得的世界知识的影响。

Abstract

Recent studies on logical reasoning in auto-regressive Language Models (LMs) have sparked a debate on whether such models can learn systematic reasoning principles during pre-training or merely exploit superficial patterns in the training data. This paper presents a Mechanistic Interpretation

发现论文，激发创造

使用NeuBAROCO评估大型语言模型的三段论推理能力和类人偏见

本文研究当前的大型语言模型是否存在逻辑推理的偏见，探讨三种主要偏见类型，并介绍一种心理实验数据集 NeuBAROCO。通过分析数据集，发现当前的大型语言模型在涉及到这三种类型偏见的问题上表现欠佳。

Jun, 2023

现象异常而令人迷惑：用假设修正测试语言模型的归纳推理能力

使用迭代性的假设修正技术，通过三步骤的提议、选择和修正来研究语言模型在归纳推理任务中的能力，并发现其在产生假设和筛选规则方面表现出色，但在识别可信规则和应用提议规则方面存在差距，揭示了语言模型在归纳推理任务中的潜力和局限。

Oct, 2023

探索语言模型的多步推理能力的机械解释

在这篇论文中，我们通过探索一种机械化方法来回答语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问。我们引入了一种新的探测方法（称为机械化探测器），从模型的注意力模式中恢复推理树，用于分析两个语言模型：GPT-2在一个合成任务（第k个最小元素）上以及LLaMA在两个简单的基于语言的推理任务（ProofWriter和AI2推理挑战）上。我们展示了机械化探测器能够在大多数示例中从模型的注意力中检测到推理树的信息，这表明在许多情况下语言模型确实在其架构中经历了一个多步推理的过程。

Oct, 2023

人类与语言模型中演绎推理的系统比较

语言模型在逻辑推理中能够模仿人类偏见，并在某些情况下克服它们。

Nov, 2023

大型语言模型对因果推理是否需要全部知识?

该研究论文探讨了大型语言模型在提升人工智能的解释性和可靠性方面的因果推理。提出了一种利用“do-operators”构建反事实场景的因果归因模型，系统度量输入数值数据和语言模型先有知识对其因果推理过程的影响。实验评估发现，语言模型的因果推理能力依赖于所提供的上下文信息和特定领域的知识，并支持“知识确实是语言模型在进行合理因果推理时主要需要的”这一观点。与此相反，在缺乏知识的情况下，语言模型仍然通过可用的数值数据进行一定程度的因果推理，尽管计算存在一定限制。

Dec, 2023

大型语言模型中的条件推理和模态推理

探索大型语言模型（LLMs）在逻辑推理能力方面的表现，重点关注涉及条件句和认识模态的推理模式，并发现大部分模型在条件句方面存在基本错误，甚至最新的GPT-4在涉及认识模态的推理模式中也存在逻辑上的不一致判断。

Jan, 2024

通过训练动力学探索“逆转诅咒”的理论理解

通过训练动力学，理论分析自回归模型中的逆转问题，揭示了逆转诅咒发生的核心原因是自回归模型的权重存在不对称性；同时，证明了链式思维在一层变压器中的必要性，并进行了与多层变压器的实验证实。

May, 2024

瞄准内部一致性：对语言模型进行推理校准

通过检查中间层解码的潜在预测的一致性，我们提出了内部一致性作为模型信心的度量，这有效地区分了正确和错误的推理路径，并通过加权具有高内部一致性的推理路径来调整链式推理，从而显著提高了推理性能。我们的结果表明，内部表示的使用可以将LLMs自我评估的潜力展现出来。

May, 2024

大型语言模型作为软性推理器的系统分析：以三段论推理为例

我们系统地研究了大型语言模型在选择式推理中的思维方式、背景学习和有监督微调的影响，并考虑了支持或违反世界知识的结论以及具有多个前提的典型推理。我们的结果表明，大型语言模型的行为可以通过认知科学中研究的启发式方式来解释，而背景学习和有监督微调都能提高模型在有效推理上的性能，尽管只有有监督微调能够减少大部分的推理偏差而不损害模型的一致性。

Jun, 2024

通过三段论探索大型语言模型中的推理偏差：来自NeuBAROCO数据集的见解

本研究探讨了当前大型语言模型在自然语言中进行逻辑推理的准确性，尤其关注这些模型是否表现出类似于人类的推理偏差。通过引入NeuBAROCO数据集，我们发现大型语言模型在推理过程中存在显著的偏差，并且在某些推理问题上改进空间巨大，提出的新思路表明，模型的主要限制在于推理过程本身。

Aug, 2024