May, 2022

ComPhy: 从视频中对对象和事件进行组合式物理推理

TL;DR本文介绍 ComPhy 数据集,该数据集含有一些移动和交互对象的视频,用于评估模型是否能够理解隐藏的物理性质,实验结果表明,一些当前先进的视频推理模型无法捕捉这些隐藏的属性。此外,本文进一步提出了一种名为 Compositional Physics Learner(CPL)的神经符号框架,该框架将视觉感知、物理特性学习、动态预测和符号执行结合成一个统一的框架,以识别对象的物理特性并预测它们的动态以回答问题。