LLMs 与抽象推理数据集:成功、失败及基于对象表示的重要性
使用大型语言模型(LLMs),尤其是 GPT4,通过文本赋予模型一些人类先验知识,并使用一些常见过程对 ARC 任务进行求解,结果表明当利用视觉问答工具作为图像解释工具,并具有过去记忆的多智能体系统进行扩展后,我们可以解决大多数的 ARC 挑战问题。
Jun, 2023
利用 Abstract and Reasoning Corpus 数据集的新方法,我们评估了大型语言模型的推理和上下文理解能力,结果表明虽然大型语言模型具有薄弱的推理能力,但在逻辑连贯性、组合性和生产力方面仍然落后于人类,我们的实验突显了 LLM 的推理能力,并提出了实现人类级别推理的发展路径。
Mar, 2024
通过比较人类和大型语言模型(LLM)在一组新的儿童友好的 Abstraction Reasoning Corpus(ARC)项目上的表现,发现在 LLMs 和年幼儿童中有类似的 “fallback” 解决策略,并发现了两种其他错误类型,一种基于似乎掌握关键概念,另一种基于类比输入矩阵的简单组合。这项研究揭示了 LLM 的推理能力以及我们可以利用错误分析和与人类发展的比较来理解 LLMs 如何解决视觉类比问题。
Mar, 2024
通过使用 Abstraction and Reasoning Corpus(ARC)作为基准,我们介绍了一种与人类生成的自然程序相一致的以对象为中心的模型,这些模型不仅可以进行预测,还可以为输入 / 输出对提供联合描述,并且通过最小描述长度(MDL)原则在大型模型空间中高效搜索。我们解决了多样化的任务,并且学得的模型与自然程序相似。同时,我们还展示了我们的方法的广泛适用性。
Nov, 2023
我们探索了 GPT-4 的纯文本和多模态版本的抽象推理能力,使用 ConceptARC 基准测试评估核心概念的严谨理解和推理能力。我们通过在更详细的一次性提示上评估纯文本版本的 ConceptARC 任务(而不是简单的零次提示),以及通过使用最简单任务的图像版本在零次和一次提示上评估 GPT-4 的多模态版本 GPT-4V,扩展了 Moskvichev 等人的工作。我们的实验结果支持结论:GPT-4 的任何版本都没有达到人类水平的严谨抽象能力。
Nov, 2023
通过将 ARC 问题转化为广义规划问题,我们引入了 ARC 求解器 GPAR,采用指针的规划程序来解决 ARC 问题,利用表示对象中心抽象的外部函数结合标准规划域定义语言(PDDL)来表达每个 ARC 问题,并通过领域知识来扩展 GP 求解器,实验结果表明 GPAR 在 ARC 的对象中心任务上表现优于最先进的求解器,展示了 GP 的有效性和 PDDL 对建模 ARC 问题的表达能力。
Jan, 2024
使用大型语言模型(LLMs)作为多个专家代理系统,通过在零样本、少样本、上下文引导提示的情况下启动 LLMs 的灵活性,我们试图解决抽象和推理语料库(ARC)挑战。通过将输入图像转换为多个适合的基于文本的抽象空间,我们利用 LLMs 的联想能力推导出输入输出关系,并将其映射到工作程序形式的行动,类似于 Voyager / Ghost in the MineCraft。此外,我们使用迭代环境反馈来指导 LLMs 解决任务。我们的方法在训练集问题的 111 个问题中实现了 50 个解决方案(45%),仅使用三个抽象空间 - 网格、对象和像素。我们相信通过更多的抽象空间和可学习的行动,我们将能够解决更多问题。
Oct, 2023
该研究介绍了一种利用程序综合方法来推理和解决抽象推理测验(ARC)任务的系统,其中实现了一种特定领域语言 Visual Imagery Reasoning Language (VIMRL),并且通过分解搜索空间和本地搜索来优化大的搜索空间,最终在 ARC 公开测试和私有测试中表现卓越。
Feb, 2023
本文提出一种基于图形抽象的对象中心框架,使用 DSL 进行程序综合,引入了约束获取、状态哈希和禁忌搜索,成功的解决了 ARC 的复杂对象中心任务,并生成了正确而易于理解的程序。
Oct, 2022
该篇研究论文主要介绍了大型语言模型的逻辑推理能力评估,提出了一个名为 GLoRE 的评估基准,包含 12 个数据集,通过实验证明了 ChatGPT 和 GPT-4 在逻辑推理方面的强大能力,并提出了改进方法,发布了数据集和评估程序以促进未来的研究。
Oct, 2023