学习推理中长度泛化的理论

Mar, 2024

A Theory for Length Generalization in Learning to Reason

Changnan Xiao, Bing Liu

TL;DR针对学习推理中的长度泛化问题，本文通过理论研究提出一种可以模拟成有向无环图（DAGs）的问题的长度泛化条件，并设计了基于该理论的问题表示方法，使用 Transformer 模型完美解决了诸如奇偶性、加法和乘法等具有挑战性的推理问题。

Abstract

length generalization (LG) is a challenging problem in learning to reason. It refers to the phenomenon that when trained on reasoning prob

length generalization learning to reason challenging problem directed acyclic graphs transformer

发现论文，激发创造

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024

增强大型语言模型的推理能力：一种基于图形的验证方法

我们引入了一种基于图的方法来增强大型语言模型的推理能力，通过分析和验证由 LLMs 生成的解决方案，我们的实验结果表明，我们的基于图的验证方法不仅显著提高了 LLMs 的推理能力，而且在提高这些模型的推理性能方面优于现有的验证程序。

Aug, 2023

LLM 图推理能否超越模式记忆泛化？

大型语言模型 (LLMs) 在有隐式图结构问题上展现了巨大潜力，最近的研究试图通过专门的指导调整增强 LLMs 的图推理能力。然而，对于 LLMs 是否正在学习可推广的图推理技能或仅仅是在合成训练数据中记忆模式，仍未得到很好的探究。因此，我们提出了 NLGift 基准测试，这是 LLM 图推理可推广性的一个评估套件：LLMs 是否能够超越合成训练数据中的语义、数值、结构、推理模式，提高在基于真实世界图的任务上的效用。通过对两个 LLMs 进行四个图推理任务的广泛实验，结果显示虽然对简单模式（语义、数值）的推广相对令人满意，但 LLMs 难以在推理和真实世界模式下进行推广，对于利用底层网络结构的真实世界任务的合成图调整的益处产生了怀疑。我们探索了三种改进 LLM 图推理可推广性的策略，发现对于真实世界任务来说，后训练对齐是最有希望的，但让 LLM 图推理超越模式记忆仍然是一个未解决的研究问题。

Jun, 2024

有意义的学习：通过通用事实指导提升大型语言模型的抽象推理能力

我们设计了一个初步的研究，以量化和深入探讨现有大型语言模型的抽象推理能力。我们的结果显示，我们的方法不仅提高了大型语言模型的一般推理性能，而且在抽象推理能力方面取得了可观的进展，从简单的记忆或模仿转向了更加精细的对通用事实的理解和应用。

Mar, 2024

LogiGLUE: 逻辑推理能力的语言模型分析调查和基准评测

通过对最新进展的简要回顾，本文试图了解大型语言模型在逻辑推理方面的能力，包括逻辑推理数据集、任务以及利用大型语言模型进行推理的方法。通过构建基准测试集 LogiGLUE，并训练一个经过指令微调的语言模型 LogiT5，研究了单任务训练、多任务训练以及思维链知识蒸馏微调技术在不同逻辑推理类别上的表现，旨在揭示大型语言模型在逻辑推理中的能力和潜在路径，为该关键领域的高级和精细化发展铺平道路。

Oct, 2023

探索大型语言模型中图推理的局限性

预训练大型语言模型通过仅基于语言的提示已经展示出各种类型的推理能力。然而，在本文中，我们通过图形推理问题测试了 5 种不同的 LLMs（GPT-4、GPT-3.5、Claude-2、Llama-2 和 Palm-2）的图形推理深度。我们设计了 10 个不同的图形遍历问题，每个问题代表了不断增加的复杂性水平。此外，我们分析了模型在不同设置下的性能，例如图形大小的变化以及不同形式的 k-shot 提示。我们通过此基准测试过程突出了 LLMs 的各种限制、偏见和属性，例如与图中每个节点遍历的自由度平均值呈反比关系，k-shot 提示对图形推理任务的整体负面影响以及积极的响应偏差，这使得 LLMs 无法识别有效解的缺失。最后，我们提出了一种专门针对图形遍历任务设计的新提示技术，称为 PathCompare，它在 LLMs 的性能方面与标准提示和 CoT 相比表现出显着增加。

Feb, 2024

大型语言模型能够学习时间推理

我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM，通过将上下文翻译成时间图，教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益，并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理，观察到符号推理带来更一致可靠的结果。

Jan, 2024

GraphLLM：提升大型语言模型的图推理能力

通过将图学习模型与大型语言模型（LLMs）有机地融合，我们介绍了 GraphLLM，一种能够使 LLMs 能够熟练解释和推理图数据的先导性端到端方法，经过多个基础图推理任务的实证评估，结果展示了平均准确率提高 54.44％以及各种图推理任务中 96.45％的显著上下文减少。

Oct, 2023