Jun, 2024

基于物理先验的组合式 4D 动态场景理解与视频问答

TL;DR该研究提出了一个基于视频的问答数据集 SuperCLEVR-Physics,专注于对象的动力学特性,通过显式的 4D 场景表示和神经符号推理,展示了 NS-4Dynamics 在理解动力学属性以及未来预测和反事实推理方面的效果,该模型在重建 4D 场景并重新模拟未来或反事实事件方面表现良好。