ConceptARC 基准测试：在 ARC 领域评估理解和推广能力

May, 2023

ConceptARC 基准测试：在 ARC 领域评估理解和推广能力

The ConceptARC Benchmark: Evaluating Understanding and Generalization in the ARC Domain

Arseny Moskvichev, Victor Vikram Odouard, Melanie Mitchell

TL;DR本文介绍了 “Abstract and Reasoning Corpus”（ARC）的实验评估平台 “ConceptARC”，它具有系统评估抽象和泛化能力的基本空间和语义概念，使用该平台作为基准测试，我们测试了三种 AI 求解器和人类的表现，结果表明人类显着优于机器系统，并为 AI 系统的概念抽象发展和有效评估提供了激励。

Abstract

The abilities to form and abstract concepts is key to human intelligence, but such abilities remain lacking in state-of-the-art ai systems. There has been substantial research on conceptual abstraction in AI, par

conceptual abstraction ai systems arc dataset benchmark evaluation

发现论文，激发创造

评估概念抽象基准的理解能力

本文提出了一种基于概念的评估方法，通过探究一个系统在多个实例中应用给定概念的能力来评估。作者以 RAVEN 和 ARC 为例进行了案例研究。研究发现，这种基于概念的评估方法揭示了传统测试集所隐藏的 AI 系统的信息。

Jun, 2022

通过语言进行视觉抽象和推理

本研究提出了一种基于自然语言描述任务的方法框架来解决人工智能中的 Abstraction and Reasoning Corpus (ARC) 问题，虽然尚未击败当前最先进的 DSL 模型，但我们证明了我们的方法具有巨大的潜力，可以解决以前不能解决的任务。

Mar, 2023

通用规划用于抽象推理语料库

通过将 ARC 问题转化为广义规划问题，我们引入了 ARC 求解器 GPAR，采用指针的规划程序来解决 ARC 问题，利用表示对象中心抽象的外部函数结合标准规划域定义语言（PDDL）来表达每个 ARC 问题，并通过领域知识来扩展 GP 求解器，实验结果表明 GPAR 在 ARC 的对象中心任务上表现优于最先进的求解器，展示了 GP 的有效性和 PDDL 对建模 ARC 问题的表达能力。

Jan, 2024

解决抽象推理语料库任务的方法

该研究介绍了一种利用程序综合方法来推理和解决抽象推理测验（ARC）任务的系统，其中实现了一种特定领域语言 Visual Imagery Reasoning Language （VIMRL），并且通过分解搜索空间和本地搜索来优化大的搜索空间，最终在 ARC 公开测试和私有测试中表现卓越。

Feb, 2023

神经网络的抽象和推理：迈向机器的广泛泛化

人工智能研究半个世纪以来一直试图复制人类的抽象和推理能力，创造出可以从一小组示例中学习新概念的计算机系统，在人类轻松掌握的情境下进行。然而，尽管特定神经网络能够解决一系列问题，但对于训练数据之外的广泛泛化，仍然是个难题。本文提出了几种新颖的解决方法，用于解决抽象与推理语料库 (ARC) 的问题。尽管竞赛的最佳算法仍然无法解决大多数 ARC 任务，并且依赖于复杂的手工规则，而不使用机器学习。我们重新审视了神经网络领域的最新进展是否能够在这个任务上取得进展，并提出了适应 ARC 的 DreamCoder 神经符号推理求解器。DreamCoder 自动编写特定领域的语言程序进行推理，并使用神经网络模拟人类直觉。我们提出了感知抽象与推理语言 (PeARL) 语言，使 DreamCoder 能够解决 ARC 任务，并提出了一种新的识别模型，显著改进了之前的最佳实现。我们还提出了一种新的编码和增强方案，使大语言模型 (LLMs) 能够解决 ARC 任务，并发现最大的模型可以解决一些 ARC 任务。LLMs 能够解决一组不同于现有解算器的问题，并为其他方法提供了一种有趣的补充方式。我们进行了集成分析，将模型结合起来以取得比任何单独系统更好的结果。最后，我们发布了 arckit Python 库，使未来对 ARC 的研究更加容易。

Feb, 2024

抽象与推理语料库的图形、约束和搜索

本文提出一种基于图形抽象的对象中心框架，使用 DSL 进行程序综合，引入了约束获取、状态哈希和禁忌搜索，成功的解决了 ARC 的复杂对象中心任务，并生成了正确而易于理解的程序。

Oct, 2022

ARC 数据集中知识、推理和语境的系统分类

本文提出了一套完整的科学问题解答所需的知识和推理类型定义方法，回答 ARC 数据集中的问题需要的标注信息分布和相关统计的分析，证明了人工选取的相关句子能够提高神经机器理解模型的 42 个百分点的性能。

Jun, 2018

大型语言模型能像人类一样解决 ARC 视觉类比问题吗？

通过比较人类和大型语言模型（LLM）在一组新的儿童友好的 Abstraction Reasoning Corpus（ARC）项目上的表现，发现在 LLMs 和年幼儿童中有类似的 “fallback” 解决策略，并发现了两种其他错误类型，一种基于似乎掌握关键概念，另一种基于类比输入矩阵的简单组合。这项研究揭示了 LLM 的推理能力以及我们可以利用错误分析和与人类发展的比较来理解 LLMs 如何解决视觉类比问题。

Mar, 2024

利用物体为中心的模型和 MDL 原则解决抽象和推理语料库（ARC）

通过使用 Abstraction and Reasoning Corpus（ARC）作为基准，我们介绍了一种与人类生成的自然程序相一致的以对象为中心的模型，这些模型不仅可以进行预测，还可以为输入 / 输出对提供联合描述，并且通过最小描述长度（MDL）原则在大型模型空间中高效搜索。我们解决了多样化的任务，并且学得的模型与自然程序相似。同时，我们还展示了我们的方法的广泛适用性。

Nov, 2023

大型语言模型的推理能力：对抽象与推理语料库的深度分析

利用 Abstract and Reasoning Corpus 数据集的新方法，我们评估了大型语言模型的推理和上下文理解能力，结果表明虽然大型语言模型具有薄弱的推理能力，但在逻辑连贯性、组合性和生产力方面仍然落后于人类，我们的实验突显了 LLM 的推理能力，并提出了实现人类级别推理的发展路径。

Mar, 2024