开放世界中的物理推理
物理推理是开发通用人工智能系统的关键因素,本论文旨在提供现有基准的综述及其解决方法,并提出了衡量人工智能系统物理推理能力的统一观点。我们选择了设计用于测试物理推理任务中算法性能的基准。虽然每个选定的基准都提出了独特的挑战,但它们的集合为具有各种物理推理概念可测量技能水平的通用 AI 代理提供了全面的实践场所。因此,这些基准集合相较于旨在模拟现实世界并交织其复杂性和许多概念的综合基准具有优势。我们将所呈现的一组物理推理基准分为子类别,以首先在这些组上对更窄的通用 AI 代理进行测试。
Dec, 2023
从代理的需求和利益以及广泛的世界上的重要性来看,孤立无援地进行推理效果不佳。此外,这些问题可能最好通过一种新的数据结构来处理,该数据结构超越了知识库,包含了感知知识的方面,甚至可能是一种预期的行动所关键。
Aug, 2016
该研究旨在促进具备应对物理情境中异常情况能力的智能体的发展,通过开发一个新的测试平台 NovPhy 并在其中设计了 8 种不同类型的异常情境,并运用到 5 个常见的物理情境中,测试了人类、学习智能体和启发式智能体的表现,结果表明人类的表现远远超过智能体,并引发对如何设计更为智能的物理智能体的思考。
Mar, 2023
我们提出了一个名为 PROST 的新探测数据集,用于探索物体的物理推理。通过分析我们发现,目前最先进的预训练模型在物理推理方面仍存在局限性,这表明预训练模型对于物理交互的理解能力受到了真实世界经验的限制,因此我们希望通过强调这些局限性来促进具有人类物理世界理解能力的模型的发展。
Jun, 2021
通过使用 MuJoCo 物理引擎和高质量渲染器 Blender,我们引入一个新的模拟环境,以提供既逼真又准确反映物理环境状态的视觉观察。除此之外,我们还提出了一个由 10 类多步骤推理场景构成的新基准,并开发了一种新的模块化闭环交互式推理(CLIER)方法,考虑到非视觉对象属性的测量、外部干扰引起的场景变化以及机器人动作的不确定结果。我们在模拟环境和实际操作任务中对我们的推理方法进行了广泛评估,并取得了分别高达 76% 和 64% 的成功率。
Apr, 2024
研究使用基于对象或像素表现的模型来改进 PHYRE 基准测试中复杂的物理推理任务的性能,发现前向预测模型可以提高复杂任务的性能,但这种改进取决于测试任务是否是训练任务的变化,更好的像素准确性并不一定导致更好的物理推理性能。
Jun, 2020
这篇论文提出了一个开放世界模型和元特征系统,专注于在新旧世界之间的客观特征分布差异的基本识别,并通过元特征的牵引力实现了对新旧世界中学习能力的量子隧穿效应。该模型在学习新知识方面表现出色(以行人重识别数据集为例),最高可达 96.71%的准确度,并获得了类似于人类的探索新知识的能力。
Nov, 2023
为了解决现有学习算法与人类表现之间的差距并强调增强代理人的交互式物理推理能力的重要性,我们介绍了 I-PHYRE 框架,该框架要求代理人同时展示直觉的物理推理、多步规划和原位干预,通过代表性场景的互动促进学习。
Dec, 2023
介绍了一种新的算法 (COWP),用于基于任务和机器人技能从语言模型中提取常识,实现在开放世界中完成任务规划和情境处理,实验结果表明其在服务任务成功率方面显著优于现有文献中的竞争基线算法。
Oct, 2022