大型语言模型能像人类一样解决 ARC 视觉类比问题吗？

Mar, 2024

大型语言模型能像人类一样解决 ARC 视觉类比问题吗？

Do Large Language Models Solve ARC Visual Analogies Like People Do?

Gustaw Opiełka, Hannes Rosenbusch, Veerle Vijverberg, Claire E. Stevenson

TL;DR通过比较人类和大型语言模型（LLM）在一组新的儿童友好的 Abstraction Reasoning Corpus（ARC）项目上的表现，发现在 LLMs 和年幼儿童中有类似的 “fallback” 解决策略，并发现了两种其他错误类型，一种基于似乎掌握关键概念，另一种基于类比输入矩阵的简单组合。这项研究揭示了 LLM 的推理能力以及我们可以利用错误分析和与人类发展的比较来理解 LLMs 如何解决视觉类比问题。

Abstract

The abstraction reasoning corpus (ARC) is a visual analogical reasoning test designed for humans and machines (Chollet, 2019). We compared human and large language model (LLM) performance on a new child-friendly

abstraction reasoning corpus visual analogical reasoning test large language model llm performance error analysis

发现论文，激发创造

大型语言模型的推理能力：对抽象与推理语料库的深度分析

利用 Abstract and Reasoning Corpus 数据集的新方法，我们评估了大型语言模型的推理和上下文理解能力，结果表明虽然大型语言模型具有薄弱的推理能力，但在逻辑连贯性、组合性和生产力方面仍然落后于人类，我们的实验突显了 LLM 的推理能力，并提出了实现人类级别推理的发展路径。

Mar, 2024

通过语言进行视觉抽象和推理

本研究提出了一种基于自然语言描述任务的方法框架来解决人工智能中的 Abstraction and Reasoning Corpus (ARC) 问题，虽然尚未击败当前最先进的 DSL 模型，但我们证明了我们的方法具有巨大的潜力，可以解决以前不能解决的任务。

Mar, 2023

大型语言模型（LLM）作为多个专家代理系统：解决抽象和推理语料库（ARC）挑战的方法

使用大型语言模型（LLMs）作为多个专家代理系统，通过在零样本、少样本、上下文引导提示的情况下启动 LLMs 的灵活性，我们试图解决抽象和推理语料库（ARC）挑战。通过将输入图像转换为多个适合的基于文本的抽象空间，我们利用 LLMs 的联想能力推导出输入输出关系，并将其映射到工作程序形式的行动，类似于 Voyager / Ghost in the MineCraft。此外，我们使用迭代环境反馈来指导 LLMs 解决任务。我们的方法在训练集问题的 111 个问题中实现了 50 个解决方案（45%），仅使用三个抽象空间 - 网格、对象和像素。我们相信通过更多的抽象空间和可学习的行动，我们将能够解决更多问题。

Oct, 2023

利用神经嵌入和向量运算解决 ARC 视觉类比问题：一种广义方法

这篇论文通过引入变分自动编码器 (VAE) 来解决通过向量算术处理的视觉类比推理问题，并且在 Abstraction and Reasoning Corpus (ARC) 中取得了有希望的结果。

Nov, 2023

LLMs 与抽象推理数据集：成功、失败及基于对象表示的重要性

本文探讨了大型语言模型在抽象推理问题中的解决能力，提出了基于物体表示的解决方案，解决了 ARC 数据集中的 13 个问题，并在 1D-ARC 数据集上取得了接近完美的成绩。

May, 2023

LLM 与人类类比推理中的语义结构映射

人类学习和认知中的类比推理被认为是核心。最近的研究比较了人类与大型语言模型（LLMs）在抽象符号操作任务（如字母串类比）上的类比推理能力。然而，这些研究在对语义有意义的符号（如自然语言词汇）进行类比推理时基本上被忽略了。这种将语言与非语言领域相关联的类比能力，我们称之为语义结构映射，被认为在语言习得和更广泛的认知发展中起着关键作用。我们在要求从一个领域向另一个领域转移语义结构和内容的类比推理任务上对人类与 LLMs 进行了测试。先进的 LLMs 在许多任务变体上与人类表现相匹配。然而，人类和 LLMs 对某些任务变体和语义干扰有不同的反应。总的来说，我们的数据表明 LLMs 在这些重要的认知任务上正在接近人类水平的表现，但还不完全接近人类。

Jun, 2024

LLM-ARC: 提升 LLM 模型与自动推理评论家

LLM-ARC 是一个神经符号框架，通过将大语言模型（LLMs）与自动推理评论家（ARC）相结合，提升其逻辑推理能力。它采用了演员 - 评论家方法，其中 LLM 演员生成声明性逻辑程序和语义正确性测试，而自动推理评论家评估代码，运行测试，并提供关于测试失败的反馈以进行迭代改进。在 FOLIO 基准测试中，利用 ASP 实现的 LLM-ARC 实现了 88.32% 的新的最高准确性，测试了复杂的逻辑推理能力。我们的实验证明了 LLM-ARC 相对于仅使用 LLM 的基准线的显著改进，突出了逻辑测试生成和迭代自我改进的重要性。我们通过完全自动化的自我监督训练循环达到了最佳结果，其中演员在端到端对话追踪上接受评论家的反馈训练。我们讨论了潜在的改进，并提供了详细的错误分析，展示了 LLM-ARC 在复杂自然语言推理任务中的鲁棒性和有效性。

Jun, 2024

解决抽象推理语料库任务的方法

该研究介绍了一种利用程序综合方法来推理和解决抽象推理测验（ARC）任务的系统，其中实现了一种特定领域语言 Visual Imagery Reasoning Language （VIMRL），并且通过分解搜索空间和本地搜索来优化大的搜索空间，最终在 ARC 公开测试和私有测试中表现卓越。

Feb, 2023

ConceptARC 基准测试：在 ARC 领域评估理解和推广能力

本文介绍了 “Abstract and Reasoning Corpus”（ARC）的实验评估平台 “ConceptARC”，它具有系统评估抽象和泛化能力的基本空间和语义概念，使用该平台作为基准测试，我们测试了三种 AI 求解器和人类的表现，结果表明人类显着优于机器系统，并为 AI 系统的概念抽象发展和有效评估提供了激励。

May, 2023

人类与多模态 LLMs 之间的视觉认知差距是什么？

我们提出了一个新数据集 MaRs-VQA 和一个新的基准 VCog-Bench，以评估 Multimodal Large Language Models 的零射击 Abstract Visual Reasoning 能力，并将其与现有的人类智能研究进行比较。我们的实验结果揭示了当前 MLLMs 在视觉认知方面存在的局限性。

Jun, 2024