范畴三段论再探：关于逻辑推理能力的LLMs分析范畴三段论的综述

Jun, 2024

范畴三段论再探：关于逻辑推理能力的LLMs分析范畴三段论的综述

Categorical Syllogisms Revisited: A Review of the Logical Reasoning Abilities of LLMs for Analyzing Categorical Syllogism

HTML

PDF

Shi Zong, Jimmy Lin

TL;DR对于大型语言模型在逻辑推断任务中的表现方式存在疑问，本文对先前关于大型语言模型在分析范畴三段论的逻辑推理能力方面的研究进行了系统概述，并总结了其推理范畴三段论有效性的性能。结果显示，解释量词似乎是限制语言模型性能的主要瓶颈，并值得更多关注。希望本研究不仅能提供对于范畴三段论当前文献的及时回顾，而且能激发更多跨学科研究，特别是计算语言学家和逻辑学家之间的合作。

Abstract

There have been a huge number of benchmarks proposed to evaluate how large language models (LLMs) behave for logic inference tasks. However, it remains an open question how to properly evaluate this ability. In this paper, we provide a systematic overview of prior works on the

发现论文，激发创造

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估

本文针对大型语言模型的逻辑推理能力进行全面评估，选择15个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。

Jun, 2023

评估逐步推理与词汇否定：一个对三段论的案例研究

大型语言模型在逐步推理指令（例如思维链提示）方面具有优势。在此基础上，它们在执行连贯思维推理方面的鲁棒性是一个值得探究的问题。本研究检验大型语言模型在逐步推理能力方面，重点关注难以处理的核心语言现象——否定。通过引入几个受控设置（例如处理虚构实体时的推理）来评估模型的逻辑推理能力。我们观察到当进行逐步推理时，许多现代大型语言模型在处理否定词（例如plausible -> implausible）时不具有鲁棒性，研究结果凸显了每个大型语言模型家族中独特的局限性。

Oct, 2023

大型语言模型中的条件推理和模态推理

探索大型语言模型（LLMs）在逻辑推理能力方面的表现，重点关注涉及条件句和认识模态的推理模式，并发现大部分模型在条件句方面存在基本错误，甚至最新的GPT-4在涉及认识模态的推理模式中也存在逻辑上的不一致判断。

Jan, 2024

LogicPrpBank: 一个用于逻辑蕴涵和等价的语料库

语言模型在问题解决和决策中具有重要作用，但其在复杂数学问题中的逻辑推理能力尚未得到充分研究。本研究提供了一个有标签的命题逻辑语料库LogicPrpBank，包括六个数学专题的7093个命题逻辑陈述，用于研究逻辑蕴含和等价的推理任务。通过与常用的语言模型进行对比，我们证明了该语料库为这一具有挑战性的任务提供了有用的资源，并为模型的改进提供了充分的空间。

Feb, 2024

大型语言模型理解逻辑还是仅仅模仿语境？

大型语言模型在逻辑推理和符号推理等复杂场景中表现出色，但其在理解逻辑规则上存在限制，本文通过反事实方法探讨了大型语言模型的推理能力，强调了加强机制以确保其可靠的逻辑推理的需求。

Feb, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行“推理”吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

深度研究逻辑推理与LLM：工具选择的重要性

通过将大型语言模型 (LLMs) 与各种符号求解器相结合，我们对 Z3、Pyke 和 Prover9 三个符号求解器的性能进行实验证明，其中与 LLMs 相结合时，Pyke 的性能明显低于 Prover9 和 Z3，Z3 的总体准确性略高于 Prover9，但 Prover9 能够处理更多问题。

Jun, 2024

探索令牌偏差: 大型语言模型尚未成为真正的推理者

该研究介绍了一个假设检验框架，用于评估大型语言模型（LLMs）是否具有真正的推理能力，还是主要依赖于令牌偏差。我们超越准确性的评估，旨在调查LLMs在解决逻辑推理任务时的令牌偏差。具体而言，我们开发了精心控制的合成数据集，其中包括合取谬误和演绎问题。我们的框架概述了一系列假设，其中令牌偏差很容易被识别，所有零假设均假设LLMs具有真正的推理能力。本研究的发现以统计保证表明，多数LLMs在逻辑推理方面仍然有困难。尽管它们在经典问题上表现出色，但它们的成功主要依赖于识别带有强烈令牌偏差的表面模式，因此引发了对其实际推理和泛化能力的担忧。

Jun, 2024

大型语言模型作为软性推理器的系统分析：以三段论推理为例

我们系统地研究了大型语言模型在选择式推理中的思维方式、背景学习和有监督微调的影响，并考虑了支持或违反世界知识的结论以及具有多个前提的典型推理。我们的结果表明，大型语言模型的行为可以通过认知科学中研究的启发式方式来解释，而背景学习和有监督微调都能提高模型在有效推理上的性能，尽管只有有监督微调能够减少大部分的推理偏差而不损害模型的一致性。

Jun, 2024

通过三段论探索大型语言模型中的推理偏差：来自NeuBAROCO数据集的见解

本研究探讨了当前大型语言模型在自然语言中进行逻辑推理的准确性，尤其关注这些模型是否表现出类似于人类的推理偏差。通过引入NeuBAROCO数据集，我们发现大型语言模型在推理过程中存在显著的偏差，并且在某些推理问题上改进空间巨大，提出的新思路表明，模型的主要限制在于推理过程本身。

Aug, 2024