从视频和语言中学习可微分物理模型进行动态可视化推理
本文提出了一种基于物理-逆向图像学的方法,可以从视频中无监督地估算系统的物理参数,实现长期视频预测和基于视觉的模型预测控制,并在交互物体系统的长期未来帧预测中显著优于相关无监督方法,还实现了控制器的可解释性提供了独特的能力在目标驱动控制和物理推理方面的零数据适应。
May, 2019
研究提出了一个新的问题,即如何从视觉输入中进行物体力学的反事实学习,并提出了一种用于在反事实情境下学习物理动态的模型。通过学习对初始条件进行干预时对其结果的影响,和对潜在因素的学习,该网络可以捕捉到物理环境的潜在特性,从而具有超越人类表现的预测能力。
Sep, 2019
该论文提出了一种神经模型,同时基于物理学原理和视觉先验进行推理和预测,通过对粒子的估计预测物理参数,即视觉基础,并在刚体、可变形材料和流体的复杂环境中证明了它的有效性,允许模型在几次观察内推断出物理特性,从而快速适应未见过的场景并进行准确的未来预测。
Apr, 2020
本文提出了一种统一框架-动态概念学习者(DCL)用于从视频及自然语言文本中,对物理对象和事件进行建模,其中DCL采用轨迹提取器来追踪每个物体随时间的变化并将其表示为一种潜在目标中心的特征向量,并进一步将物体集成到图形网络中学习物体之间的动态交互关系,最终通过语义分析器解析问题并执行执行器来回答问题,该方法在CLEVRER数据集上实现了state-of-the-art的表现。
Mar, 2021
本文介绍 ComPhy 数据集,该数据集含有一些移动和交互对象的视频,用于评估模型是否能够理解隐藏的物理性质,实验结果表明,一些当前先进的视频推理模型无法捕捉这些隐藏的属性。此外,本文进一步提出了一种名为 Compositional Physics Learner(CPL)的神经符号框架,该框架将视觉感知、物理特性学习、动态预测和符号执行结合成一个统一的框架,以识别对象的物理特性并预测它们的动态以回答问题。
May, 2022
介绍了CRIPP-VQA数据集,该数据集包含具有物理性质的场景中物体运动的视频并配有各种类型的问题,强调了隐含属性问题和明确属性问题的巨大性能差距。
Nov, 2022
本论文提出了一种通过学习多视角RGB图像预测场景未来发展的3D模型的框架,并使用条件神经辐射场视觉前端和3D基点动态预测后端来捕获底层环境的结构以及强关系和结构归纳偏差,相较于先前的方法,我们的模型对准确的点估计和跟踪不再具有依赖性,可以应对较复杂的场景,并在长时间预测方面表现较好。
Apr, 2023
通过视觉粒子动力学以及端到端学习的方式,我们提出了一种从观测数据中直接学习模拟器的方法,避免了对特殊的信息的依赖,从而实现更加真实可信的仿真。这一方法的3D结构使得场景编辑和长期预测成为可能,为视频编辑和机器人规划等应用提供了新的路径。
Dec, 2023
该研究提出了一个基于视频的问答数据集SuperCLEVR-Physics,专注于对象的动力学特性,通过显式的4D场景表示和神经符号推理,展示了NS-4Dynamics在理解动力学属性以及未来预测和反事实推理方面的效果,该模型在重建4D场景并重新模拟未来或反事实事件方面表现良好。
Jun, 2024