Jun, 2024
基于物理先验的组合式4D动态场景理解与视频问答
Compositional 4D Dynamic Scenes Understanding with Physics Priors for
Video Question Answering
TL;DR该研究提出了一个基于视频的问答数据集SuperCLEVR-Physics,专注于对象的动力学特性,通过显式的4D场景表示和神经符号推理,展示了NS-4Dynamics在理解动力学属性以及未来预测和反事实推理方面的效果,该模型在重建4D场景并重新模拟未来或反事实事件方面表现良好。