解离逻辑: 大型语言模型推理能力中的上下文作用

Jun, 2024

解离逻辑: 大型语言模型推理能力中的上下文作用

Disentangling Logic: The Role of Context in Large Language Model Reasoning Capabilities

Wenyue Hua, Kaijie Zhu, Lingyao Li, Lizhou Fan, Shuhang Lin...

TL;DR通过调查来自一系列领域中的抽象和上下文逻辑问题的对比，本研究旨在系统地分离纯逻辑推理和文本理解。我们探讨当基础逻辑结构保持不变时，LLMs 在各个领域中是否展示出真正的推理能力。

Abstract

This study intends to systematically disentangle pure logic reasoning and text understanding by investigating the contrast across abstract and contextualized logical problems from a comprehensive set of domains.

发现论文，激发创造

大型语言模型是上下文语义推理者而非符号推理者

本文研究了大型语言模型LLMs的推理能力，通过对语义从推理过程中的剥离进行实验，发现语义在LLMs的推理中起着至关重要的作用，但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角，并呼吁深入研究LLMs的推理机制。

May, 2023

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估

本文针对大型语言模型的逻辑推理能力进行全面评估，选择15个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。

Jun, 2023

简洁有序的感知促进大型语言模型进行演绎推理

通过引入Concise and Organized Perception (COP)方法，可以高效地分解复杂的演绎问题并消除冗余信息，从而在与之前的方法相比表现显著优异的同时，减少错误推理的风险。

Oct, 2023

大型语言模型理解逻辑还是仅仅模仿语境？

大型语言模型在逻辑推理和符号推理等复杂场景中表现出色，但其在理解逻辑规则上存在限制，本文通过反事实方法探讨了大型语言模型的推理能力，强调了加强机制以确保其可靠的逻辑推理的需求。

Feb, 2024

人类和大型语言模型在演绎推理中的推理策略比较

该研究通过对大型语言模型在命题逻辑问题上的响应进行细致评估，利用认知心理学原理探讨了模型使用的推理策略。结果发现，大型语言模型展示出类似于人类的推理模式，包括“解释跟踪”和“链式构建”等策略。此外，该研究表明模型的架构和规模显著影响其首选的推理方法，较先进的模型更倾向于频繁使用这些策略。模型的准确性并不必然反映其推理过程的有效性，这一区别强调了该领域需要更为精细的评估程序。

Feb, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行“推理”吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

探索令牌偏差: 大型语言模型尚未成为真正的推理者

该研究介绍了一个假设检验框架，用于评估大型语言模型（LLMs）是否具有真正的推理能力，还是主要依赖于令牌偏差。我们超越准确性的评估，旨在调查LLMs在解决逻辑推理任务时的令牌偏差。具体而言，我们开发了精心控制的合成数据集，其中包括合取谬误和演绎问题。我们的框架概述了一系列假设，其中令牌偏差很容易被识别，所有零假设均假设LLMs具有真正的推理能力。本研究的发现以统计保证表明，多数LLMs在逻辑推理方面仍然有困难。尽管它们在经典问题上表现出色，但它们的成功主要依赖于识别带有强烈令牌偏差的表面模式，因此引发了对其实际推理和泛化能力的担忧。

Jun, 2024

归纳还是演绎？重新思考大型语言模型的基本推理能力

本研究针对大型语言模型（LLMs）在演绎与归纳推理能力区分不足的问题，提出了一个新框架SolverLearner，以探索LLMs的真实归纳推理能力。研究发现，LLMs在归纳推理方面表现出显著能力，但在演绎推理尤其是“反事实”推理任务中则相对欠缺。

Jul, 2024

归纳还是演绎？重新思考大型语言模型的基本推理能力

本文探讨了大型语言模型（LLMs）在推理能力上的一个重要问题，即归纳推理与演绎推理的差异。通过提出新的框架SolverLearner，研究揭示了LLMs在纯粹的归纳推理方面具备出色的能力，表现优异，但在演绎推理，尤其是“反事实”推理任务中相对不足。这一发现为理解LLMs的推理能力提供了新的视角和研究方向。

Jul, 2024

利用大型语言模型进行逻辑推理中的假设推断：一种神经符号方法

本研究解决了大型语言模型（LLMs）在逻辑推理中的泛化能力不足和信息损失问题。我们提出了一种名为LINA的神经符号方法，使LLM能够自主从命题逻辑提取过渡到复杂的逻辑推理，从而提高推理过程的稳健性，并消除对外部求解器的依赖。实验表明，LINA在五个逻辑推理任务中表现优于传统方法，其在FOLIO数据集上的性能提升达24.34%。

Oct, 2024