大型语言模型理解逻辑还是仅仅模仿语境？

Feb, 2024

大型语言模型理解逻辑还是仅仅模仿语境？

Do Large Language Models Understand Logic or Just Mimick Context?

Junbing Yan, Chengyu Wang, Jun Huang, Wei Zhang

TL;DR大型语言模型在逻辑推理和符号推理等复杂场景中表现出色，但其在理解逻辑规则上存在限制，本文通过反事实方法探讨了大型语言模型的推理能力，强调了加强机制以确保其可靠的逻辑推理的需求。

Abstract

Over the past few years, the abilities of large language models (LLMs) have received extensive attention, which have performed exceptionally well in complicated scenarios such as logical reasoning and

发现论文，激发创造

使用大型语言模型进行可解释的逻辑推理的Selection-Inference方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

大语言模型的推理能力：一项调查

本文综述了大型语言模型在推理方面的最新研究，包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法，以及这一领域之前研究的发现和意义，旨在激发有意义的讨论和未来的研究。

Dec, 2022

大型语言模型是上下文语义推理者而非符号推理者

本文研究了大型语言模型LLMs的推理能力，通过对语义从推理过程中的剥离进行实验，发现语义在LLMs的推理中起着至关重要的作用，但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角，并呼吁深入研究LLMs的推理机制。

May, 2023

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估

本文针对大型语言模型的逻辑推理能力进行全面评估，选择15个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。

Jun, 2023

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集(LMM-LR)对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行“推理”吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

深度研究逻辑推理与LLM：工具选择的重要性

通过将大型语言模型 (LLMs) 与各种符号求解器相结合，我们对 Z3、Pyke 和 Prover9 三个符号求解器的性能进行实验证明，其中与 LLMs 相结合时，Pyke 的性能明显低于 Prover9 和 Z3，Z3 的总体准确性略高于 Prover9，但 Prover9 能够处理更多问题。

Jun, 2024

解离逻辑: 大型语言模型推理能力中的上下文作用

通过调查来自一系列领域中的抽象和上下文逻辑问题的对比，本研究旨在系统地分离纯逻辑推理和文本理解。我们探讨当基础逻辑结构保持不变时，LLMs 在各个领域中是否展示出真正的推理能力。

Jun, 2024

规则破坏者挑战：揭示大型语言模型推理中盲点

本研究针对大型语言模型在推理中存在的假设与现实之间的矛盾问题，提出了“规则破坏者”的概念，并构建了RULEBREAKERS数据集来评估模型的识别能力。研究发现，大多数模型在识别规则破坏者的能力上表现不佳，但通过评估其自信度，可以看出它们有潜力区分这些规则破坏者，从而揭示了大型语言模型推理能力的局限性。

Oct, 2024

大型语言模型能否作为符号推理者？

本研究探讨了大型语言模型（LLMs）在推理能力方面的不足，尤其是在解释其推理过程和结论方面的缺失。文章提出了一种新的视角来审视LLMs的符号推理能力，并识别出当前研究的不足之处，展望未来的研究趋势，强调了LLMs在解释性方面的潜在影响。

Oct, 2024