PHYRE：物理推理的新基准

Aug, 2019

PHYRE: A New Benchmark for Physical Reasoning

Anton Bakhtin, Laurens van der Maaten, Justin Johnson, Laura Gustafson, Ross Girshick

TL;DR这篇研究论文介绍了 PHYRE 物理推理基准测试，旨在鼓励开发机器学习算法以在简单的经典力学 2D 物理环境中进行样本高效且泛化良好的推理。测试表明，现有的算法在 PHYRE 上表现不佳。希望这个基准测试能够鼓励开发出学习高效有用的物理模型的新型样本高效智能体。

Abstract

Understanding and reasoning about physics is an important ability of intelligent agents. We develop the PHYRE benchmark for physical reasoning that contains a set of simple →

physical reasoning learning algorithms benchmark classical mechanics puzzles sample efficiency

发现论文，激发创造

I-PHYRE：交互式物理推理

为了解决现有学习算法与人类表现之间的差距并强调增强代理人的交互式物理推理能力的重要性，我们介绍了 I-PHYRE 框架，该框架要求代理人同时展示直觉的物理推理、多步规划和原位干预，通过代表性场景的互动促进学习。

Dec, 2023

NovPhy：开放环境中物理推理的测试平台

该研究旨在促进具备应对物理情境中异常情况能力的智能体的发展，通过开发一个新的测试平台 NovPhy 并在其中设计了 8 种不同类型的异常情境，并运用到 5 个常见的物理情境中，测试了人类、学习智能体和启发式智能体的表现，结果表明人类的表现远远超过智能体，并引发对如何设计更为智能的物理智能体的思考。

Mar, 2023

物理推理 AI 的基准测试

物理推理是开发通用人工智能系统的关键因素，本论文旨在提供现有基准的综述及其解决方法，并提出了衡量人工智能系统物理推理能力的统一观点。我们选择了设计用于测试物理推理任务中算法性能的基准。虽然每个选定的基准都提出了独特的挑战，但它们的集合为具有各种物理推理概念可测量技能水平的通用 AI 代理提供了全面的实践场所。因此，这些基准集合相较于旨在模拟现实世界并交织其复杂性和许多概念的综合基准具有优势。我们将所呈现的一组物理推理基准分为子类别，以首先在这些组上对更窄的通用 AI 代理进行测试。

Dec, 2023

物理推理的前向预测

研究使用基于对象或像素表现的模型来改进 PHYRE 基准测试中复杂的物理推理任务的性能，发现前向预测模型可以提高复杂任务的性能，但这种改进取决于测试任务是否是训练任务的变化，更好的像素准确性并不一定导致更好的物理推理性能。

Jun, 2020

PUZZLES：神经算法推理的基准

算法推理在问题解决和决策过程中起着重要作用，强化学习在运动控制、处理感知输入和管理随机环境等任务中表现出卓越的技能。本研究引入了 PUZZLES，这是一个基于 Simon Tatham 的便携式拼图集的基准，旨在促进算法和逻辑推理在强化学习中的进展。PUZZLES 包含 40 个不同大小和复杂程度的多样逻辑拼图，许多拼图还具有一组多样的配置参数。这 40 个拼图提供了关于强化学习代理的优势和泛化能力的详细信息。此外，我们在 PUZZLES 上评估了各种强化学习算法，提供了基准比较，并展示了未来研究的潜力。所有软件和环境都可在此 https URL 网址上获得。

Jun, 2024

IntPhys: 视觉直觉物理推理的框架和基准

本论文提出了一项基于视觉任务的评估基准，以测试人工系统对于宏观物体、运动、力等物理理解的程度，同时介绍了两个旨在以无监督的方式学习直观物理的深度神经网络系统，并通过与人类数据的比较，对下一帧预测建筑的潜力和限制进行了新颖的结果分析。

Mar, 2018

利用具有动态感知能力的模型进行物理推理

通过自我监督的信号增强奖励价值，将模型训练出了刻画两个物理场景间相似度的能力，从而在 PHYRE 基准测试中显著提升了表现。

Feb, 2021

ESPRIT: 解释物理推理任务的解决方案

提出了一种用于定性物理常识推理的 ESPRTI 框架，可以使用解释性自然语言描述物理事件，从而灵活地适应未被训练过的场景和任务。

May, 2020

ContPhy: 从视频中学习和推理连续物理概念

我们引入了连续物理数据集（ContPhy），这是一个用于评估机器物理常识的新型基准。通过涵盖不同场景中的多样化物理属性推理以及对应的动力学预测，ContPhy 补充了现有的物理推理基准。我们评估了一系列 AI 模型，并发现它们在 ContPhy 上仍然难以达到令人满意的性能，这表明当前的 AI 模型在连续物体方面仍然缺乏物理常识，尤其是软体，并证明了该数据集的价值。我们还引入了一种基于粒子的物理动力学模型与最近的大型语言模型相结合的神谕模型（ContPRO），该模型结合了两种模型的优势，即精确的动力学预测和可解释的推理。ContPhy 旨在促进在不同物理场景中的感知和推理的进步，缩小人类和机器智能在理解物理世界方面的差距。项目页面：这个 https URL

Feb, 2024

ComPhy: 从视频中对对象和事件进行组合式物理推理

本文介绍 ComPhy 数据集，该数据集含有一些移动和交互对象的视频，用于评估模型是否能够理解隐藏的物理性质，实验结果表明，一些当前先进的视频推理模型无法捕捉这些隐藏的属性。此外，本文进一步提出了一种名为 Compositional Physics Learner（CPL）的神经符号框架，该框架将视觉感知、物理特性学习、动态预测和符号执行结合成一个统一的框架，以识别对象的物理特性并预测它们的动态以回答问题。

May, 2022