A & B == B & A：在大型语言模型中触发逻辑推理失败

Jan, 2024

A & B == B & A：在大型语言模型中触发逻辑推理失败

A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models

Yuxuan Wan, Wenxuan Wang, Yiliu Yang, Youliang Yuan, Jen-tse Huang...

TL;DR我们引入了LogicAsker，它是一种自动方法，全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力，并揭示了LLM未能学好的逻辑规则。我们评估了LogicAsker在GPT-3、ChatGPT、GPT-4、Bard、Vicuna和Guanaco等主要的大型语言模型上，并展示了LogicAsker的测试用例在不同LLM中发现逻辑推理错误的比率从25%到94%不等。此外，LogicAsker的测试用例可以进一步用于设计上下文学习的演示例子，有效提高LLM的逻辑推理能力，如GPT-4提高了10%。据我们所知，我们的工作是首次基于测试结果创建提示来有效提高LLM的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。

Abstract

Recent advancements in large language models (LLMs) have propelled Artificial Intelligence (AI) to new heights, enabling breakthroughs in various tasks such as writing assistance, code generation, and machine translation. A significant distinction of advanced LLMs, such as ChatGPT, is

发现论文，激发创造

使用大型语言模型进行可解释的逻辑推理的Selection-Inference方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

Logic-LM: 使用符号求解器增强大型语言模型进行可靠的逻辑推理

Logic-LM是一种将大型语言模型与符号推理相结合的框架，通过首先使用大型语言模型将自然语言问题转化为符号形式，然后进行确定性符号求解，以及自我精炼阶段来修正符号形式，在ProofWriter、PrOntoQA、FOLIO和LogicalDeduction等四个逻辑推理数据集上的结果表明，与仅使用大型语言模型相比，我们的方法可以显著提高逻辑推理的性能。

May, 2023

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估

本文针对大型语言模型的逻辑推理能力进行全面评估，选择15个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。

Jun, 2023

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集(LMM-LR)对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

面向关系推理的LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

LLM推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行“推理”吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

深度研究逻辑推理与LLM：工具选择的重要性

通过将大型语言模型 (LLMs) 与各种符号求解器相结合，我们对 Z3、Pyke 和 Prover9 三个符号求解器的性能进行实验证明，其中与 LLMs 相结合时，Pyke 的性能明显低于 Prover9 和 Z3，Z3 的总体准确性略高于 Prover9，但 Prover9 能够处理更多问题。

Jun, 2024

自动定理证明器帮助提高大型语言模型的推理能力

本文解决了大型语言模型在逻辑推理任务中准确性不足的问题。研究提出了一种神经符号架构，通过将LLM作为翻译前端并结合自动推理引擎来解决逻辑问题，实现了基于自动定理证明器的语义错误修正。结果表明，该方法显著减少了语义错误，提高了LLM的推理准确性。

Aug, 2024

利用大型语言模型进行逻辑推理中的假设推断：一种神经符号方法

本研究解决了大型语言模型（LLMs）在逻辑推理中的泛化能力不足和信息损失问题。我们提出了一种名为LINA的神经符号方法，使LLM能够自主从命题逻辑提取过渡到复杂的逻辑推理，从而提高推理过程的稳健性，并消除对外部求解器的依赖。实验表明，LINA在五个逻辑推理任务中表现优于传统方法，其在FOLIO数据集上的性能提升达24.34%。

Oct, 2024