学习推理技能中长度概括的条件

Nov, 2023

Conditions for Length Generalization in Learning Reasoning Skills

Changnan Xiao, Bing Liu

TL;DRAI agents rely on reasoning, but large language models (LLMs) have limitations in their reasoning capabilities, particularly in length generalization. This paper presents a theoretical study of the length generalization problem in reasoning tasks formulated as Markov dynamic processes (MDPs) and/or directed acyclic graphs (DAGs), identifying conditions for solving the problem and conducting experiments to validate the theoretical findings.

Abstract

reasoning is a fundamental capability of AI agents. Recently, large language models (LLMs) have shown remarkable abilities to perform reasoning tasks. However, numerous evaluations of the →

reasoning large language models limitations length generalization theoretical study

发现论文，激发创造

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

大语言模型的推理能力：一项调查

本文综述了大型语言模型在推理方面的最新研究，包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法，以及这一领域之前研究的发现和意义，旨在激发有意义的讨论和未来的研究。

Dec, 2022

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

有意义的学习：通过通用事实指导提升大型语言模型的抽象推理能力

我们设计了一个初步的研究，以量化和深入探讨现有大型语言模型的抽象推理能力。我们的结果显示，我们的方法不仅提高了大型语言模型的一般推理性能，而且在抽象推理能力方面取得了可观的进展，从简单的记忆或模仿转向了更加精细的对通用事实的理解和应用。

Mar, 2024

大型语言模型中的条件推理和模态推理

探索大型语言模型（LLMs）在逻辑推理能力方面的表现，重点关注涉及条件句和认识模态的推理模式，并发现大部分模型在条件句方面存在基本错误，甚至最新的 GPT-4 在涉及认识模态的推理模式中也存在逻辑上的不一致判断。

Jan, 2024

多智能体系统中的推理能力：限制、挑战和以人为中心的解决方案

利用大型语言模型（LLMs）在多项任务中取得的显著表现带来了在实际环境中利用它们的许多机遇和挑战。为了实现 LLMs 的实际采用，多智能体系统在使用现有专有数据和模型应对复杂现实任务的企业平台的更大背景下，具有增强、整合和协调 LLMs 的巨大潜力。本文提出了 “推理能力” 概念作为统一准则，以实现在优化过程中整合约束并建立系统内不同组件之间的联系，从而实现更全面、综合的评估方法。我们提出了推理能力的正式定义，并说明其在识别系统每个组件的限制方面的实用性。然后，我们讨论了如何通过自反思的过程来解决推理中的缺陷，并增强整个系统的一致性，其中利用人的反馈来缓解推理不足问题。

Feb, 2024

大型语言模型不是抽象推理器

本论文评估了最新的 Large Language Models 在抽象推理任务上的表现，并发现它们相比于其他自然语言处理任务的表现非常有限。作者探讨了这种差异的原因，并提出了一个新的基准，用于评估自然语言处理中的抽象推理任务。

May, 2023

一项测试模型在某些推理任务中的能力的案例研究

大型语言模型在生成个性化内容和促进交互对话方面表现出色，但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力，突出了当前挑战和限制，阻碍了它们在复杂推理场景中的有效性。

Feb, 2024

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024