解决抽象推理语料库(ARC)挑战的方法
本文探讨了大型语言模型在抽象推理问题中的解决能力,提出了基于物体表示的解决方案,解决了 ARC 数据集中的 13 个问题,并在 1D-ARC 数据集上取得了接近完美的成绩。
May, 2023
使用大型语言模型(LLMs)作为多个专家代理系统,通过在零样本、少样本、上下文引导提示的情况下启动 LLMs 的灵活性,我们试图解决抽象和推理语料库(ARC)挑战。通过将输入图像转换为多个适合的基于文本的抽象空间,我们利用 LLMs 的联想能力推导出输入输出关系,并将其映射到工作程序形式的行动,类似于 Voyager / Ghost in the MineCraft。此外,我们使用迭代环境反馈来指导 LLMs 解决任务。我们的方法在训练集问题的 111 个问题中实现了 50 个解决方案(45%),仅使用三个抽象空间 - 网格、对象和像素。我们相信通过更多的抽象空间和可学习的行动,我们将能够解决更多问题。
Oct, 2023
该研究介绍了一种利用程序综合方法来推理和解决抽象推理测验(ARC)任务的系统,其中实现了一种特定领域语言 Visual Imagery Reasoning Language (VIMRL),并且通过分解搜索空间和本地搜索来优化大的搜索空间,最终在 ARC 公开测试和私有测试中表现卓越。
Feb, 2023
本研究提出了一种基于自然语言描述任务的方法框架来解决人工智能中的 Abstraction and Reasoning Corpus (ARC) 问题,虽然尚未击败当前最先进的 DSL 模型,但我们证明了我们的方法具有巨大的潜力,可以解决以前不能解决的任务。
Mar, 2023
通过比较人类和大型语言模型(LLM)在一组新的儿童友好的 Abstraction Reasoning Corpus(ARC)项目上的表现,发现在 LLMs 和年幼儿童中有类似的 “fallback” 解决策略,并发现了两种其他错误类型,一种基于似乎掌握关键概念,另一种基于类比输入矩阵的简单组合。这项研究揭示了 LLM 的推理能力以及我们可以利用错误分析和与人类发展的比较来理解 LLMs 如何解决视觉类比问题。
Mar, 2024
通过将 ARC 问题转化为广义规划问题,我们引入了 ARC 求解器 GPAR,采用指针的规划程序来解决 ARC 问题,利用表示对象中心抽象的外部函数结合标准规划域定义语言(PDDL)来表达每个 ARC 问题,并通过领域知识来扩展 GP 求解器,实验结果表明 GPAR 在 ARC 的对象中心任务上表现优于最先进的求解器,展示了 GP 的有效性和 PDDL 对建模 ARC 问题的表达能力。
Jan, 2024
通过使用 Abstraction and Reasoning Corpus(ARC)作为基准,我们介绍了一种与人类生成的自然程序相一致的以对象为中心的模型,这些模型不仅可以进行预测,还可以为输入 / 输出对提供联合描述,并且通过最小描述长度(MDL)原则在大型模型空间中高效搜索。我们解决了多样化的任务,并且学得的模型与自然程序相似。同时,我们还展示了我们的方法的广泛适用性。
Nov, 2023
提出一种使用归纳逻辑编程的程序合成系统来解决抽象与推理语料库(ARC)的方法。通过定义一个与 ARC 相关的领域特定语言(DSL)和逻辑程序,该系统能够通过少量示例任务进行泛化和推理,从而解决需要不同推理方法的 ARC 中的任务。
May, 2024
这篇论文介绍了一个基于科学问题的 AI2 Reasoning Challenge(ARC)的新问题集、文本语料库和基线模型的构建,这需要比之前的挑战如 SQuAD 或 SNLI 更强大的知识和推理能力,包含了自然、初中科学问题的最大公共数据集,并测试了几种基线模型,但没有一种能够有效地解决这个艰巨的任务。
Mar, 2018
利用 Abstract and Reasoning Corpus 数据集的新方法,我们评估了大型语言模型的推理和上下文理解能力,结果表明虽然大型语言模型具有薄弱的推理能力,但在逻辑连贯性、组合性和生产力方面仍然落后于人类,我们的实验突显了 LLM 的推理能力,并提出了实现人类级别推理的发展路径。
Mar, 2024