大型语言模型的推理能力:对抽象与推理语料库的深度分析
本论文评估了最新的 Large Language Models 在抽象推理任务上的表现,并发现它们相比于其他自然语言处理任务的表现非常有限。作者探讨了这种差异的原因,并提出了一个新的基准,用于评估自然语言处理中的抽象推理任务。
May, 2023
本文研究了大型语言模型 LLMs 的推理能力,通过对语义从推理过程中的剥离进行实验,发现语义在 LLMs 的推理中起着至关重要的作用,但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角,并呼吁深入研究 LLMs 的推理机制。
May, 2023
通过比较人类和大型语言模型(LLM)在一组新的儿童友好的 Abstraction Reasoning Corpus(ARC)项目上的表现,发现在 LLMs 和年幼儿童中有类似的 “fallback” 解决策略,并发现了两种其他错误类型,一种基于似乎掌握关键概念,另一种基于类比输入矩阵的简单组合。这项研究揭示了 LLM 的推理能力以及我们可以利用错误分析和与人类发展的比较来理解 LLMs 如何解决视觉类比问题。
Mar, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
通过产生多个抽象假设并将其转化为具体的 Python 程序,进而为大型语言模型提高归纳推理能力,并利用自动生成的摘要或人工筛选的候选集来过滤生成的程序,从而在归纳推理任务中实现更高的准确性。
Sep, 2023
大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。
Apr, 2024
本文针对大型语言模型的逻辑推理能力进行全面评估,选择 15 个经典数据集,评估模型的零点、单点和三点能力,提出客观和主观的细化评估方法,归纳出 LLMs 的逻辑推理能力的优势和不足并提出未来方向。
Jun, 2023
大型语言模型在抽象推理任务上表现优秀,但与人类推理问题存在相似的缺陷,同时受到人类知识和信仰的影响,使用可信的现实情境方案进行推理可以提高推理质量,这种关联性帮助我们了解认知效应和语言模型表现的因素。
Jul, 2022
本研究提出了一种基于自然语言描述任务的方法框架来解决人工智能中的 Abstraction and Reasoning Corpus (ARC) 问题,虽然尚未击败当前最先进的 DSL 模型,但我们证明了我们的方法具有巨大的潜力,可以解决以前不能解决的任务。
Mar, 2023
我们提出了一个新的概念化框架,迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案,使用这个框架作为分析工具,我们发现现有的大型语言模型在概念推理方面存在不足,并通过引入可信的归纳信号来改善模型的概念推理性能,实验证明我们提出的技术使模型的概念推理性能提高了 8% 至 11%,实现了一个更强大的推理系统,更少地依赖归纳偏见。
Mar, 2024