大型语言模型能够推理吗?通过3-SAT进行特征描述
本文通过介绍一种新的合成问答数据集PrOntoQA,旨在通过对LLMs的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对InstructGPT和GPT-3进行了分析,表明LLMs能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
本文提出了一种新的满足性辅助语言建模方法,利用自然语言处理模型生成任务的声明性规范,使用现成的自动定理证明器进行推理并验证答案的正确性,在解决需要更复杂的规划与搜索任务时比基于编程范式的模型更加有效。
May, 2023
本文针对大型语言模型的逻辑推理能力进行全面评估,选择15个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出LLMs的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023
本研究引入了一个名为NPHardEval的新基准,旨在评估大型语言模型(LLMs)的推理能力。通过比较LLMs在复杂类别上的表现,提供了对LLMs推理能力的客观且严格的观点。此基准通过900个算法问题的广泛谱系评估LLMs的推理能力,从NP-Hard复杂类别扩展到以下较低的复杂类别,并通过每月更新数据点来减轻LLMs过拟合的风险,促进更准确可靠的能力评估。
Dec, 2023
探索大型语言模型(LLMs)在逻辑推理能力方面的表现,重点关注涉及条件句和认识模态的推理模式,并发现大部分模型在条件句方面存在基本错误,甚至最新的GPT-4在涉及认识模态的推理模式中也存在逻辑上的不一致判断。
Jan, 2024
我们设计了一个初步的研究,以量化和深入探讨现有大型语言模型的抽象推理能力。我们的结果显示,我们的方法不仅提高了大型语言模型的一般推理性能,而且在抽象推理能力方面取得了可观的进展,从简单的记忆或模仿转向了更加精细的对通用事实的理解和应用。
Mar, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行“推理”吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
通过将大型语言模型 (LLMs) 与各种符号求解器相结合,我们对 Z3、Pyke 和 Prover9 三个符号求解器的性能进行实验证明,其中与 LLMs 相结合时,Pyke 的性能明显低于 Prover9 和 Z3,Z3 的总体准确性略高于 Prover9,但 Prover9 能够处理更多问题。
Jun, 2024
本研究针对大型语言模型(LLMs)在演绎与归纳推理能力区分不足的问题,提出了一个新框架SolverLearner,以探索LLMs的真实归纳推理能力。研究发现,LLMs在归纳推理方面表现出显著能力,但在演绎推理尤其是“反事实”推理任务中则相对欠缺。
Jul, 2024
本文探讨了大型语言模型(LLMs)在推理能力上的一个重要问题,即归纳推理与演绎推理的差异。通过提出新的框架SolverLearner,研究揭示了LLMs在纯粹的归纳推理方面具备出色的能力,表现优异,但在演绎推理,尤其是“反事实”推理任务中相对不足。这一发现为理解LLMs的推理能力提供了新的视角和研究方向。
Jul, 2024