通过语言进行视觉抽象和推理
该研究介绍了一种利用程序综合方法来推理和解决抽象推理测验(ARC)任务的系统,其中实现了一种特定领域语言 Visual Imagery Reasoning Language (VIMRL),并且通过分解搜索空间和本地搜索来优化大的搜索空间,最终在 ARC 公开测试和私有测试中表现卓越。
Feb, 2023
本文提出一种基于图形抽象的对象中心框架,使用 DSL 进行程序综合,引入了约束获取、状态哈希和禁忌搜索,成功的解决了 ARC 的复杂对象中心任务,并生成了正确而易于理解的程序。
Oct, 2022
人工智能研究半个世纪以来一直试图复制人类的抽象和推理能力,创造出可以从一小组示例中学习新概念的计算机系统,在人类轻松掌握的情境下进行。然而,尽管特定神经网络能够解决一系列问题,但对于训练数据之外的广泛泛化,仍然是个难题。本文提出了几种新颖的解决方法,用于解决抽象与推理语料库 (ARC) 的问题。尽管竞赛的最佳算法仍然无法解决大多数 ARC 任务,并且依赖于复杂的手工规则,而不使用机器学习。我们重新审视了神经网络领域的最新进展是否能够在这个任务上取得进展,并提出了适应 ARC 的 DreamCoder 神经符号推理求解器。DreamCoder 自动编写特定领域的语言程序进行推理,并使用神经网络模拟人类直觉。我们提出了感知抽象与推理语言 (PeARL) 语言,使 DreamCoder 能够解决 ARC 任务,并提出了一种新的识别模型,显著改进了之前的最佳实现。我们还提出了一种新的编码和增强方案,使大语言模型 (LLMs) 能够解决 ARC 任务,并发现最大的模型可以解决一些 ARC 任务。LLMs 能够解决一组不同于现有解算器的问题,并为其他方法提供了一种有趣的补充方式。我们进行了集成分析,将模型结合起来以取得比任何单独系统更好的结果。最后,我们发布了 arckit Python 库,使未来对 ARC 的研究更加容易。
Feb, 2024
本文介绍了 “Abstract and Reasoning Corpus”(ARC)的实验评估平台 “ConceptARC”,它具有系统评估抽象和泛化能力的基本空间和语义概念,使用该平台作为基准测试,我们测试了三种 AI 求解器和人类的表现,结果表明人类显着优于机器系统,并为 AI 系统的概念抽象发展和有效评估提供了激励。
May, 2023
提出一种使用归纳逻辑编程的程序合成系统来解决抽象与推理语料库(ARC)的方法。通过定义一个与 ARC 相关的领域特定语言(DSL)和逻辑程序,该系统能够通过少量示例任务进行泛化和推理,从而解决需要不同推理方法的 ARC 中的任务。
May, 2024
通过将 ARC 问题转化为广义规划问题,我们引入了 ARC 求解器 GPAR,采用指针的规划程序来解决 ARC 问题,利用表示对象中心抽象的外部函数结合标准规划域定义语言(PDDL)来表达每个 ARC 问题,并通过领域知识来扩展 GP 求解器,实验结果表明 GPAR 在 ARC 的对象中心任务上表现优于最先进的求解器,展示了 GP 的有效性和 PDDL 对建模 ARC 问题的表达能力。
Jan, 2024
通过比较人类和大型语言模型(LLM)在一组新的儿童友好的 Abstraction Reasoning Corpus(ARC)项目上的表现,发现在 LLMs 和年幼儿童中有类似的 “fallback” 解决策略,并发现了两种其他错误类型,一种基于似乎掌握关键概念,另一种基于类比输入矩阵的简单组合。这项研究揭示了 LLM 的推理能力以及我们可以利用错误分析和与人类发展的比较来理解 LLMs 如何解决视觉类比问题。
Mar, 2024
利用 Abstract and Reasoning Corpus 数据集的新方法,我们评估了大型语言模型的推理和上下文理解能力,结果表明虽然大型语言模型具有薄弱的推理能力,但在逻辑连贯性、组合性和生产力方面仍然落后于人类,我们的实验突显了 LLM 的推理能力,并提出了实现人类级别推理的发展路径。
Mar, 2024
通过使用 Abstraction and Reasoning Corpus(ARC)作为基准,我们介绍了一种与人类生成的自然程序相一致的以对象为中心的模型,这些模型不仅可以进行预测,还可以为输入 / 输出对提供联合描述,并且通过最小描述长度(MDL)原则在大型模型空间中高效搜索。我们解决了多样化的任务,并且学得的模型与自然程序相似。同时,我们还展示了我们的方法的广泛适用性。
Nov, 2023
本文提出了一套完整的科学问题解答所需的知识和推理类型定义方法,回答 ARC 数据集中的问题需要的标注信息分布和相关统计的分析,证明了人工选取的相关句子能够提高神经机器理解模型的 42 个百分点的性能。
Jun, 2018