连接点:使用纽约时报连线游戏评估 LLMs 的抽象推理能力
通过研究自动化 AI 系统在 Connections 谜题中的效果,该研究探讨了该游戏作为抽象推理的自动化基准测试和衡量数据驱动语言系统中编码的语义信息的潜力。研究发现 Connections 谜题具有挑战性和可行性,是未来工作的重要测试平台。
Apr, 2024
对大型语言模型(LLMs)在解谜方面的能力进行探索,揭示了它们在人工智能中的潜力和挑战,这是对其在复杂推理任务中适用性的重要一步。通过将谜题分为基于规则和非规则两类的独特分类法,该调查通过各种方法论(包括提示技术、神经符号方法和微调)对 LLMs 进行了批判性评估。通过对相关数据集和基准的批判性回顾,我们评估了 LLMs 在复杂谜题情景中的表现,发现其在需要高级逻辑推理的领域与人类推理能力存在显著差距。该调查强调了需要新的策略和更丰富数据集来提升 LLMs 在解谜方面的熟练度,并为 AI 的逻辑推理和创造性问题解决的进展做出贡献。
Feb, 2024
使用大型语言模型在游戏中评估策略推理能力的跨领域基准 (GameBench) 显示,虽然大多数测试模型并不及人类水平,但对策略推理能力的两种框架(CoT 和 RAP)能够提高分数。
Jun, 2024
通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力,研究发现大型语言模型在游戏场景中的表现因任务类型而异,然而,开源的模型相较于商业模型在复杂游戏中表现不佳。
Feb, 2024
大型语言模型(LLMs)在知识密集型任务中被广泛采用,通过其知识能力取得了令人印象深刻的性能。本研究提出了结构化知识的几何推理,其中以图结构连接了多个知识片段,模型需要填补遗漏的信息。我们使用 Knowledge Crosswords 进行了广泛的实验来评估现有的 LLMs 提示方法,在此基准测试中,附加了两种新方法,即 Staged Prompting 和 Verify-All,以增强 LLMs 的回溯和验证结构性约束的能力。结果表明,虽然基准方法对于简单问题表现良好但在困难问题上表现不佳,我们提出的 Verify-All 方法在性能上大幅优于其他方法,并且对于困难问题更加稳健。进一步分析发现,LLMs 在结构化知识的几何推理能力仍然不够强大或完美,易受选项顺序、特定结构模式、假设存在正确答案等因素的影响。
Oct, 2023
我们的研究引入了一种新的任务 -- 扫雷,旨在测试 LLMs 在陌生格式的任务中的推理和规划能力;我们的实验证明,尽管 LLMs 具备完成该任务所需的基本能力,但它们在将这些能力整合成解决扫雷问题所需的连贯的多步骤逻辑推理过程方面存在困难。这些发现强调了进一步研究 LLMs 推理能力及探索更复杂的 AI 推理和规划模型的必要性。
Nov, 2023
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024
我们引入了 LogicAsker,它是一种自动方法,全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力,并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上,并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外,LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子,有效提高 LLM 的逻辑推理能力,如 GPT-4 提高了 10%。据我们所知,我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。
Jan, 2024
本论文评估了最新的 Large Language Models 在抽象推理任务上的表现,并发现它们相比于其他自然语言处理任务的表现非常有限。作者探讨了这种差异的原因,并提出了一个新的基准,用于评估自然语言处理中的抽象推理任务。
May, 2023