理解和修复 LLMs 中的组合推理

Feb, 2024

Understanding and Patching Compositional Reasoning in LLMs

Zhaoyi Li, Gangwei Jiang, Hong Xie, Linqi Song, Defu Lian...

TL;DR我们的研究揭示了 LLMs 在复合推理任务中的失败根源，即大多数失败源于生成或利用不当的隐性推理结果。深入研究发现隐性推理结果确实存在于中间层，并在塑造最终明确推理结果中发挥因果作用，我们还发现多头自注意力模块是生成和利用隐性推理结果的关键。基于以上发现，我们开发了 CREME，一种轻量级方法，通过编辑定位的多头自注意力模块来修复复合推理中的错误。我们的实证证据证明了 CREME 的有效性，为自主持续提升语言模型中的复合推理能力铺平了道路。

Abstract

llms have marked a revolutonary shift, yet they falter when faced with compositional reasoning tasks. Our research embarks on a quest to uncover the root causes of →

compositional reasoning llms implicit reasoning logit lens multi-head self-attention

发现论文，激发创造

ConMe: 对现代 VLMs 的组合推理重新思考的评估

我们提出了一种新的数据生成流水线 ConMe，利用视觉 - 语言模型 (VLMs) 产生具有挑战性的复合推理问题，并通过与同类模型协同对话揭示其弱点，建立了一个稳健的复合推理基准，验证表明我们的基准相对于以前的基准提高了高达 33% 的复合推理性能。

Jun, 2024

LLM 引导的归纳推理在解决组合问题上的应用

使用递归解决方案和自动推理技术，REBEL 方法扩展了大型语言模型的能力，允许其在开放世界情境中进行深度推理任务和外部工具的使用。

Sep, 2023

探索大型语言模型在数学推理中的组合不足

大型语言模型在数学推理方面研究了系统组合性，通过引入精心设计的逻辑漏洞陷阱构建了一个新的数据集 MathTrap，发现虽然大型语言模型具备所需知识的两个组成部分，但它们不会自发地组合起来处理这些新问题，通过自然语言提示、少示范演示和微调等多种方法可以减轻这种缺陷，但系统的组合性仍然是大型语言模型面临的一个未解决挑战。

May, 2024

LLMs 中的分布式推理：多跳推理中的并行推理过程

大型语言模型具有出色的能力来执行需要思考过程的任务，本研究引入了一种新颖且可解释的分析方法，探讨了大型语言模型内部的多跳推理过程，揭示了模型通过简单线性变换来建模组合推理问题的预测过程，并且发现网络的中间层生成高度可解释的嵌入，代表了多跳问题的一组潜在中间答案，这些观察结果揭示了平行推理路径的存在，即使模型缺少解决任务所需的知识，这些结果有助于揭示大型语言模型解决推理任务的策略，并提供了人工智能所能产生的思维过程类型的见解，最后还讨论了认知建模的这些结果的含义。

Jun, 2024

朝着真正无需零样本的组合视觉推理：以 LLMs 为程序员

通过引入空间和时间抽象例程以及利用少量标记示例自动生成上下文例子，我们提出了一个框架来消除人为构建的上下文例子，从而解决了可视推理中的一些问题并提升了性能。

Jan, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

迭代分解：通过监督推理过程提高科学问答

通过使用透明的中间状态进行复合会带来可解释性和安全性的好处，但可能需要工作流程支持和基础设施来保持竞争力，为此我们描述了一种人在循环中使用的对于开发和完善复合 LM 程序的工作流程，并开发了一个可视化 LM 程序执行跟踪的开源工具 - ICE，通过三个真实世界的案例将这一工作流程应用于 LM 程序，并比非组合基线提高了 LM 程序的准确性 - 描述随机对照试验中使用的安慰剂（25％到 65％），评估参与者遵守医疗干预（53％到 70％）以及在 Qasper 数据集上回答 NLP 问题（38％到 69％）。

Jan, 2023

LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型

本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识，从而提高语言模型的逻辑推理能力，取得了比现有基线更好的效果。

May, 2023

CoReS：推理与分割的协同舞蹈

我们引入了一种链式推理和分割（CoReS）的方法，通过引入具有顶级视觉层次结构的双链结构和上下文输入来增强多模式大型语言模型在复杂推理环境中的对象定位能力，大量实验证明了 CoReS 的卓越性能，超过了原来方法 7.1％。

Apr, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024