大型语言模型理解逻辑还是仅仅模仿语境?
本文研究了大型语言模型 LLMs 的推理能力,通过对语义从推理过程中的剥离进行实验,发现语义在 LLMs 的推理中起着至关重要的作用,但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角,并呼吁深入研究 LLMs 的推理机制。
May, 2023
通过对大型语言模型的研究,我们发现它们在逻辑推理方面存在缺陷,导致其在任务解决中产生反事实的答案。为了解决这个问题,我们提出了多种策略,赋予大型语言模型逻辑推理能力,从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析,验证了通过逻辑训练大型语言模型的有效性和必要性,并为将来的工作提供了启示。
Oct, 2023
本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识,从而提高语言模型的逻辑推理能力,取得了比现有基线更好的效果。
May, 2023
利用分布式网络的 “归纳学习” 方法可以提高小型语言模型的推理能力,从而弥补其依赖统计模式容易产生错误答案的局限性,并可能使其逼近高参数模型在逻辑应用上所取得的水平,从而弥合人类和大型语言模型在各个领域之间的逻辑差距。
Feb, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
通过调查来自一系列领域中的抽象和上下文逻辑问题的对比,本研究旨在系统地分离纯逻辑推理和文本理解。我们探讨当基础逻辑结构保持不变时,LLMs 在各个领域中是否展示出真正的推理能力。
Jun, 2024
这篇论文研究 LLMs 在理解语境方面的能力,通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸,需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。
Oct, 2022
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
该研究论文探讨了大型语言模型在提升人工智能的解释性和可靠性方面的因果推理。提出了一种利用 “do-operators” 构建反事实场景的因果归因模型,系统度量输入数值数据和语言模型先有知识对其因果推理过程的影响。实验评估发现,语言模型的因果推理能力依赖于所提供的上下文信息和特定领域的知识,并支持 “知识确实是语言模型在进行合理因果推理时主要需要的” 这一观点。与此相反,在缺乏知识的情况下,语言模型仍然通过可用的数值数据进行一定程度的因果推理,尽管计算存在一定限制。
Dec, 2023