评估概念抽象基准的理解能力
本文介绍了 “Abstract and Reasoning Corpus”(ARC)的实验评估平台 “ConceptARC”,它具有系统评估抽象和泛化能力的基本空间和语义概念,使用该平台作为基准测试,我们测试了三种 AI 求解器和人类的表现,结果表明人类显着优于机器系统,并为 AI 系统的概念抽象发展和有效评估提供了激励。
May, 2023
本文综述了人类学习、推理和适应新领域的关键能力 —— 概念抽象和类比制定,以及通过符号方法、深度学习和概率编程归纳等多种途径构建具有这些能力的 AI 系统的优势和局限性,最后提出了设计挑战任务和评估指标的几点建议,以在此领域取得量化和可推广的进展。
Feb, 2021
本研究提出了一种基于自然语言描述任务的方法框架来解决人工智能中的 Abstraction and Reasoning Corpus (ARC) 问题,虽然尚未击败当前最先进的 DSL 模型,但我们证明了我们的方法具有巨大的潜力,可以解决以前不能解决的任务。
Mar, 2023
该研究介绍了智能系统自识别反馈信号的必要性,提出了基于算法信息理论的智能定义,阐明了人工智能基准测试的重要性,介绍了一个使用人类内在先验近似设计的基准测试集 ——ARC,用于度量具有高通用流体智能的人工智能系统与人类的综合智能的比较。
Nov, 2019
人工智能研究半个世纪以来一直试图复制人类的抽象和推理能力,创造出可以从一小组示例中学习新概念的计算机系统,在人类轻松掌握的情境下进行。然而,尽管特定神经网络能够解决一系列问题,但对于训练数据之外的广泛泛化,仍然是个难题。本文提出了几种新颖的解决方法,用于解决抽象与推理语料库 (ARC) 的问题。尽管竞赛的最佳算法仍然无法解决大多数 ARC 任务,并且依赖于复杂的手工规则,而不使用机器学习。我们重新审视了神经网络领域的最新进展是否能够在这个任务上取得进展,并提出了适应 ARC 的 DreamCoder 神经符号推理求解器。DreamCoder 自动编写特定领域的语言程序进行推理,并使用神经网络模拟人类直觉。我们提出了感知抽象与推理语言 (PeARL) 语言,使 DreamCoder 能够解决 ARC 任务,并提出了一种新的识别模型,显著改进了之前的最佳实现。我们还提出了一种新的编码和增强方案,使大语言模型 (LLMs) 能够解决 ARC 任务,并发现最大的模型可以解决一些 ARC 任务。LLMs 能够解决一组不同于现有解算器的问题,并为其他方法提供了一种有趣的补充方式。我们进行了集成分析,将模型结合起来以取得比任何单独系统更好的结果。最后,我们发布了 arckit Python 库,使未来对 ARC 的研究更加容易。
Feb, 2024
人类智能的一个特征是能够从有限的经验中推断出抽象规则,并将这些规则应用于陌生情境。本研究介绍了一个使用特征检测、仿射变换估计和搜索的算法方法来进行规则检测和应用,并在简化版的 Raven's Progressive Matrices 任务中展示了模型具有类似人类水平的一次性学习和符号推理能力。
Mar, 2024
本文提出了一个人类中心的评估框架,用于检测可靠的和值得信赖的 AI 系统,以及评估 AI 系统表现如何与领域专家进行比较。该框架可以作为一种人类中心的 AI 系统评估方法。
May, 2022
文章介绍了学习体系如何获得和利用抽象概念结构的能力,并提供了一种最小体系结构的示例,展示了这些抽象概念结构在先前获得知识的应用中的操作有效性。
Oct, 2019