范畴三段论再探:关于逻辑推理能力的LLMs分析范畴三段论的综述
本文针对大型语言模型的逻辑推理能力进行全面评估,选择15个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023
大型语言模型在逐步推理指令(例如思维链提示)方面具有优势。在此基础上,它们在执行连贯思维推理方面的鲁棒性是一个值得探究的问题。本研究检验大型语言模型在逐步推理能力方面,重点关注难以处理的核心语言现象——否定。通过引入几个受控设置(例如处理虚构实体时的推理)来评估模型的逻辑推理能力。我们观察到当进行逐步推理时,许多现代大型语言模型在处理否定词(例如plausible -> implausible)时不具有鲁棒性,研究结果凸显了每个大型语言模型家族中独特的局限性。
Oct, 2023
探索大型语言模型(LLMs)在逻辑推理能力方面的表现,重点关注涉及条件句和认识模态的推理模式,并发现大部分模型在条件句方面存在基本错误,甚至最新的GPT-4在涉及认识模态的推理模式中也存在逻辑上的不一致判断。
Jan, 2024
语言模型在问题解决和决策中具有重要作用,但其在复杂数学问题中的逻辑推理能力尚未得到充分研究。本研究提供了一个有标签的命题逻辑语料库LogicPrpBank,包括六个数学专题的7093个命题逻辑陈述,用于研究逻辑蕴含和等价的推理任务。通过与常用的语言模型进行对比,我们证明了该语料库为这一具有挑战性的任务提供了有用的资源,并为模型的改进提供了充分的空间。
Feb, 2024
大型语言模型在逻辑推理和符号推理等复杂场景中表现出色,但其在理解逻辑规则上存在限制,本文通过反事实方法探讨了大型语言模型的推理能力,强调了加强机制以确保其可靠的逻辑推理的需求。
Feb, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行“推理”吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
通过将大型语言模型 (LLMs) 与各种符号求解器相结合,我们对 Z3、Pyke 和 Prover9 三个符号求解器的性能进行实验证明,其中与 LLMs 相结合时,Pyke 的性能明显低于 Prover9 和 Z3,Z3 的总体准确性略高于 Prover9,但 Prover9 能够处理更多问题。
Jun, 2024
该研究介绍了一个假设检验框架,用于评估大型语言模型(LLMs)是否具有真正的推理能力,还是主要依赖于令牌偏差。我们超越准确性的评估,旨在调查LLMs在解决逻辑推理任务时的令牌偏差。具体而言,我们开发了精心控制的合成数据集,其中包括合取谬误和演绎问题。我们的框架概述了一系列假设,其中令牌偏差很容易被识别,所有零假设均假设LLMs具有真正的推理能力。本研究的发现以统计保证表明,多数LLMs在逻辑推理方面仍然有困难。尽管它们在经典问题上表现出色,但它们的成功主要依赖于识别带有强烈令牌偏差的表面模式,因此引发了对其实际推理和泛化能力的担忧。
Jun, 2024
我们系统地研究了大型语言模型在选择式推理中的思维方式、背景学习和有监督微调的影响,并考虑了支持或违反世界知识的结论以及具有多个前提的典型推理。我们的结果表明,大型语言模型的行为可以通过认知科学中研究的启发式方式来解释,而背景学习和有监督微调都能提高模型在有效推理上的性能,尽管只有有监督微调能够减少大部分的推理偏差而不损害模型的一致性。
Jun, 2024
本研究探讨了当前大型语言模型在自然语言中进行逻辑推理的准确性,尤其关注这些模型是否表现出类似于人类的推理偏差。通过引入NeuBAROCO数据集,我们发现大型语言模型在推理过程中存在显著的偏差,并且在某些推理问题上改进空间巨大,提出的新思路表明,模型的主要限制在于推理过程本身。
Aug, 2024