解离逻辑: 大型语言模型推理能力中的上下文作用
本文研究了大型语言模型LLMs的推理能力,通过对语义从推理过程中的剥离进行实验,发现语义在LLMs的推理中起着至关重要的作用,但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角,并呼吁深入研究LLMs的推理机制。
May, 2023
本文针对大型语言模型的逻辑推理能力进行全面评估,选择15个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023
通过引入Concise and Organized Perception (COP)方法,可以高效地分解复杂的演绎问题并消除冗余信息,从而在与之前的方法相比表现显著优异的同时,减少错误推理的风险。
Oct, 2023
大型语言模型在逻辑推理和符号推理等复杂场景中表现出色,但其在理解逻辑规则上存在限制,本文通过反事实方法探讨了大型语言模型的推理能力,强调了加强机制以确保其可靠的逻辑推理的需求。
Feb, 2024
该研究通过对大型语言模型在命题逻辑问题上的响应进行细致评估,利用认知心理学原理探讨了模型使用的推理策略。结果发现,大型语言模型展示出类似于人类的推理模式,包括“解释跟踪”和“链式构建”等策略。此外,该研究表明模型的架构和规模显著影响其首选的推理方法,较先进的模型更倾向于频繁使用这些策略。模型的准确性并不必然反映其推理过程的有效性,这一区别强调了该领域需要更为精细的评估程序。
Feb, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行“推理”吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
该研究介绍了一个假设检验框架,用于评估大型语言模型(LLMs)是否具有真正的推理能力,还是主要依赖于令牌偏差。我们超越准确性的评估,旨在调查LLMs在解决逻辑推理任务时的令牌偏差。具体而言,我们开发了精心控制的合成数据集,其中包括合取谬误和演绎问题。我们的框架概述了一系列假设,其中令牌偏差很容易被识别,所有零假设均假设LLMs具有真正的推理能力。本研究的发现以统计保证表明,多数LLMs在逻辑推理方面仍然有困难。尽管它们在经典问题上表现出色,但它们的成功主要依赖于识别带有强烈令牌偏差的表面模式,因此引发了对其实际推理和泛化能力的担忧。
Jun, 2024
本研究针对大型语言模型(LLMs)在演绎与归纳推理能力区分不足的问题,提出了一个新框架SolverLearner,以探索LLMs的真实归纳推理能力。研究发现,LLMs在归纳推理方面表现出显著能力,但在演绎推理尤其是“反事实”推理任务中则相对欠缺。
Jul, 2024
本文探讨了大型语言模型(LLMs)在推理能力上的一个重要问题,即归纳推理与演绎推理的差异。通过提出新的框架SolverLearner,研究揭示了LLMs在纯粹的归纳推理方面具备出色的能力,表现优异,但在演绎推理,尤其是“反事实”推理任务中相对不足。这一发现为理解LLMs的推理能力提供了新的视角和研究方向。
Jul, 2024
本研究解决了大型语言模型(LLMs)在逻辑推理中的泛化能力不足和信息损失问题。我们提出了一种名为LINA的神经符号方法,使LLM能够自主从命题逻辑提取过渡到复杂的逻辑推理,从而提高推理过程的稳健性,并消除对外部求解器的依赖。实验表明,LINA在五个逻辑推理任务中表现优于传统方法,其在FOLIO数据集上的性能提升达24.34%。
Oct, 2024