LLMs 是否能够运用推理规则？用于压力测试和改善 LLMs 的逻辑支撑

Feb, 2024

LLMs 是否能够运用推理规则？用于压力测试和改善 LLMs 的逻辑支撑

Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs

Siyuan Wang, Zhongyu Wei, Yejin Choi, Xiang Ren

TL;DR通过基于逻辑搭建的推理规则生成框架 ULgogic 对 GPT 系列模型进行分析，揭示了它们在逻辑理解方面与人类表现相比存在的显著差距，尤其是在具有某种偏见模式的复合和结构复杂规则方面；同时，我们采用这些规则构建了一个小规模推理引擎，用于灵活地生成规则并增强下游推理能力，经过多评估者评估，我们的推理引擎证明在生成准确、复杂和抽象的结论和前提方面非常有效，从而为增强大型语言模型的逻辑推理能力提供了启示。

Abstract

large language models (LLMs) have achieved impressive human-like performance across various reasoning tasks. However, their mastery of underlying inferential rules still falls short of human capabilities. To investigate this, we propose a →

large language models logic scaffolding inferential rule generation ulogic compositional and structural complex rules logical reasoning abilities

发现论文，激发创造

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

大型语言模型理解逻辑还是仅仅模仿语境？

大型语言模型在逻辑推理和符号推理等复杂场景中表现出色，但其在理解逻辑规则上存在限制，本文通过反事实方法探讨了大型语言模型的推理能力，强调了加强机制以确保其可靠的逻辑推理的需求。

Feb, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

LLMs 是否能够推理计算？

利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力，从而弥补其依赖统计模式容易产生错误答案的局限性，并可能使其逼近高参数模型在逻辑应用上所取得的水平，从而弥合人类和大型语言模型在各个领域之间的逻辑差距。

Feb, 2024

使用大型语言模型进行可解释的逻辑推理的 Selection-Inference 方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

人类和大型语言模型在演绎推理中的推理策略比较

该研究通过对大型语言模型在命题逻辑问题上的响应进行细致评估，利用认知心理学原理探讨了模型使用的推理策略。结果发现，大型语言模型展示出类似于人类的推理模式，包括 “解释跟踪” 和 “链式构建” 等策略。此外，该研究表明模型的架构和规模显著影响其首选的推理方法，较先进的模型更倾向于频繁使用这些策略。模型的准确性并不必然反映其推理过程的有效性，这一区别强调了该领域需要更为精细的评估程序。

Feb, 2024

LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型

本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识，从而提高语言模型的逻辑推理能力，取得了比现有基线更好的效果。

May, 2023

语言模型可作为逻辑求解器

LoGiPT 是一种新颖的语言模型，通过直接模拟逻辑求解器的推理过程并严格遵守求解器的语法规则，绕过分析错误，并在竞争的语言模型上表现出优异的性能。

Nov, 2023