Dec, 2023

物理推理 AI 的基准测试

TL;DR物理推理是开发通用人工智能系统的关键因素,本论文旨在提供现有基准的综述及其解决方法,并提出了衡量人工智能系统物理推理能力的统一观点。我们选择了设计用于测试物理推理任务中算法性能的基准。虽然每个选定的基准都提出了独特的挑战,但它们的集合为具有各种物理推理概念可测量技能水平的通用 AI 代理提供了全面的实践场所。因此,这些基准集合相较于旨在模拟现实世界并交织其复杂性和许多概念的综合基准具有优势。我们将所呈现的一组物理推理基准分为子类别,以首先在这些组上对更窄的通用 AI 代理进行测试。