May, 2023
ConceptARC 基准测试:在 ARC 领域评估理解和推广能力
The ConceptARC Benchmark: Evaluating Understanding and Generalization in the ARC Domain
Arseny Moskvichev, Victor Vikram Odouard, Melanie Mitchell
TL;DR本文介绍了 “Abstract and Reasoning Corpus”(ARC)的实验评估平台 “ConceptARC”,它具有系统评估抽象和泛化能力的基本空间和语义概念,使用该平台作为基准测试,我们测试了三种 AI 求解器和人类的表现,结果表明人类显着优于机器系统,并为 AI 系统的概念抽象发展和有效评估提供了激励。