Jun, 2022

评估概念抽象基准的理解能力

TL;DR本文提出了一种基于概念的评估方法,通过探究一个系统在多个实例中应用给定概念的能力来评估。作者以 RAVEN 和 ARC 为例进行了案例研究。研究发现,这种基于概念的评估方法揭示了传统测试集所隐藏的 AI 系统的信息。