May, 2023

ConceptARC 基准测试:在 ARC 领域评估理解和推广能力

TL;DR本文介绍了 “Abstract and Reasoning Corpus”(ARC)的实验评估平台 “ConceptARC”,它具有系统评估抽象和泛化能力的基本空间和语义概念,使用该平台作为基准测试,我们测试了三种 AI 求解器和人类的表现,结果表明人类显着优于机器系统,并为 AI 系统的概念抽象发展和有效评估提供了激励。