大型语言模型理解逻辑还是仅仅模仿语境?
本文对大型语言模型在逻辑推理方面进行了全面评估,提出了一种基于选择和推理的框架,可以在不进行微调的情况下改进性能,并伴随着因果自然语言推理过程的答案。
May, 2022
本文综述了大型语言模型在推理方面的最新研究,包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法,以及这一领域之前研究的发现和意义,旨在激发有意义的讨论和未来的研究。
Dec, 2022
本文研究了大型语言模型LLMs的推理能力,通过对语义从推理过程中的剥离进行实验,发现语义在LLMs的推理中起着至关重要的作用,但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角,并呼吁深入研究LLMs的推理机制。
May, 2023
本文针对大型语言模型的逻辑推理能力进行全面评估,选择15个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集(LMM-LR)对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行“推理”吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
通过将大型语言模型 (LLMs) 与各种符号求解器相结合,我们对 Z3、Pyke 和 Prover9 三个符号求解器的性能进行实验证明,其中与 LLMs 相结合时,Pyke 的性能明显低于 Prover9 和 Z3,Z3 的总体准确性略高于 Prover9,但 Prover9 能够处理更多问题。
Jun, 2024
通过调查来自一系列领域中的抽象和上下文逻辑问题的对比,本研究旨在系统地分离纯逻辑推理和文本理解。我们探讨当基础逻辑结构保持不变时,LLMs 在各个领域中是否展示出真正的推理能力。
Jun, 2024
本研究针对大型语言模型在推理中存在的假设与现实之间的矛盾问题,提出了“规则破坏者”的概念,并构建了RULEBREAKERS数据集来评估模型的识别能力。研究发现,大多数模型在识别规则破坏者的能力上表现不佳,但通过评估其自信度,可以看出它们有潜力区分这些规则破坏者,从而揭示了大型语言模型推理能力的局限性。
Oct, 2024
本研究探讨了大型语言模型(LLMs)在推理能力方面的不足,尤其是在解释其推理过程和结论方面的缺失。文章提出了一种新的视角来审视LLMs的符号推理能力,并识别出当前研究的不足之处,展望未来的研究趋势,强调了LLMs在解释性方面的潜在影响。
Oct, 2024