评估概念抽象基准的理解能力

Jun, 2022

Evaluating Understanding on Conceptual Abstraction Benchmarks

Victor Vikram Odouard, Melanie Mitchell

TL;DR本文提出了一种基于概念的评估方法，通过探究一个系统在多个实例中应用给定概念的能力来评估。作者以 RAVEN 和 ARC 为例进行了案例研究。研究发现，这种基于概念的评估方法揭示了传统测试集所隐藏的 AI 系统的信息。

Abstract

A long-held objective in AI is to build systems that understand concepts in a humanlike way. Setting aside the difficulty of building such a system, even trying to evaluate one is a challenge, due to present-day AI's relative opacity and its proclivity for finding shortcut solutions. This is exacerbated by humans' tendency to anthropomorphize, assuming that

ai evaluation concept-based approach probing abilities raven arc

发现论文，激发创造

ConceptARC 基准测试：在 ARC 领域评估理解和推广能力

本文介绍了 “Abstract and Reasoning Corpus”（ARC）的实验评估平台 “ConceptARC”，它具有系统评估抽象和泛化能力的基本空间和语义概念，使用该平台作为基准测试，我们测试了三种 AI 求解器和人类的表现，结果表明人类显着优于机器系统，并为 AI 系统的概念抽象发展和有效评估提供了激励。

May, 2023

人工智能中的抽象与类比推理

本文综述了人类学习、推理和适应新领域的关键能力 —— 概念抽象和类比制定，以及通过符号方法、深度学习和概率编程归纳等多种途径构建具有这些能力的 AI 系统的优势和局限性，最后提出了设计挑战任务和评估指标的几点建议，以在此领域取得量化和可推广的进展。

Feb, 2021

通过语言进行视觉抽象和推理

本研究提出了一种基于自然语言描述任务的方法框架来解决人工智能中的 Abstraction and Reasoning Corpus (ARC) 问题，虽然尚未击败当前最先进的 DSL 模型，但我们证明了我们的方法具有巨大的潜力，可以解决以前不能解决的任务。

Mar, 2023

智能的度量

该研究介绍了智能系统自识别反馈信号的必要性，提出了基于算法信息理论的智能定义，阐明了人工智能基准测试的重要性，介绍了一个使用人类内在先验近似设计的基准测试集 ——ARC，用于度量具有高通用流体智能的人工智能系统与人类的综合智能的比较。

Nov, 2019

神经网络的抽象和推理：迈向机器的广泛泛化

人工智能研究半个世纪以来一直试图复制人类的抽象和推理能力，创造出可以从一小组示例中学习新概念的计算机系统，在人类轻松掌握的情境下进行。然而，尽管特定神经网络能够解决一系列问题，但对于训练数据之外的广泛泛化，仍然是个难题。本文提出了几种新颖的解决方法，用于解决抽象与推理语料库 (ARC) 的问题。尽管竞赛的最佳算法仍然无法解决大多数 ARC 任务，并且依赖于复杂的手工规则，而不使用机器学习。我们重新审视了神经网络领域的最新进展是否能够在这个任务上取得进展，并提出了适应 ARC 的 DreamCoder 神经符号推理求解器。DreamCoder 自动编写特定领域的语言程序进行推理，并使用神经网络模拟人类直觉。我们提出了感知抽象与推理语言 (PeARL) 语言，使 DreamCoder 能够解决 ARC 任务，并提出了一种新的识别模型，显著改进了之前的最佳实现。我们还提出了一种新的编码和增强方案，使大语言模型 (LLMs) 能够解决 ARC 任务，并发现最大的模型可以解决一些 ARC 任务。LLMs 能够解决一组不同于现有解算器的问题，并为其他方法提供了一种有趣的补充方式。我们进行了集成分析，将模型结合起来以取得比任何单独系统更好的结果。最后，我们发布了 arckit Python 库，使未来对 ARC 的研究更加容易。

Feb, 2024

通过概念化获取和建模抽象常识知识

通过使用抽象概念的方法，建立了一个可适用于人类常识推理的抽象通识知识图谱，并通过基于语言特征的启发式规则和神经模型计算与验证其抽象知识的有效性。

Jun, 2022

基于特征的通用预测模型：感知和抽象推理的统一

人类智能的一个特征是能够从有限的经验中推断出抽象规则，并将这些规则应用于陌生情境。本研究介绍了一个使用特征检测、仿射变换估计和搜索的算法方法来进行规则检测和应用，并在简化版的 Raven's Progressive Matrices 任务中展示了模型具有类似人类水平的一次性学习和符号推理能力。

Mar, 2024

人类和机器科学理解的基准创建

本文提出了一种基于科学哲学的框架，利用行为学概念来评估机器智能和人类的科学理解水平，并通过一组测试建立了科学理解基准，以便评估和比较不同方法和水平。

Apr, 2023

面向人类的人工智能评估框架

本文提出了一个人类中心的评估框架，用于检测可靠的和值得信赖的 AI 系统，以及评估 AI 系统表现如何与领域专家进行比较。该框架可以作为一种人类中心的 AI 系统评估方法。

May, 2022

一个最小化学习代理如何推断一个复杂环境中未被观察的变量的存在

文章介绍了学习体系如何获得和利用抽象概念结构的能力，并提供了一种最小体系结构的示例，展示了这些抽象概念结构在先前获得知识的应用中的操作有效性。

Oct, 2019