物体中心视觉预测的物理动态学习
开发了一个动作条件视频预测模型,能够显式地模拟像素运动,从而学习关于物理对象运动的知识。同时,模型对对象外貌部分不变,可对以前未见过的对象进行推广。我们介绍了一个包含推动动作的 59,000 个机器人交互数据集,包括一个具有新颖对象的测试集。实验结果表明,与现有方法相比,我们的方法在定量和定性方面都能更准确地预测视频。
May, 2016
我们提出了一种名为 Object-Centric Kinematics (OCK) 的动态预测框架,利用了对象为中心的表示方法,并通过各种转换机制进行综合,以实现有效的对象为中心的动态建模。该模型在处理复杂场景中的对象和背景时表现出卓越的性能,同时在不同的合成环境中展示了泛化能力,突显了它在与视觉相关的任务中的潜力。
Apr, 2024
本研究针对无监督的视频对象结构和动态提取及预测的挑战,采用基于关键点的图像表示方法,并在关键点的动力学模型上进行学习,以实现像素空间中的稳定学习和错误复合的避免。该方法在像素级视频预测和需要物体级运动动态理解的下游任务方面均优于非结构化表示,并在多个数据集和任务中进行了评估和验证。
Jun, 2019
该论文提出了一种神经模型,同时基于物理学原理和视觉先验进行推理和预测,通过对粒子的估计预测物理参数,即视觉基础,并在刚体、可变形材料和流体的复杂环境中证明了它的有效性,允许模型在几次观察内推断出物理特性,从而快速适应未见过的场景并进行准确的未来预测。
Apr, 2020
本文介绍了一种使用局部操纵来学习自然外观的全局关节,训练只需要移动物体的视频,而不需要了解物理场景底层的操纵。通过学习物体动力学的生成模型,响应用户互动,并了解相互关联的不同物体部位,该方法预测了静态图像和像素局部操纵后物体弯曲的时间变化,并实现了变形的局部交互控制,可针对不同类型的物体进行转移。与现有的视频预测相比,我们的模型不合成任意逼真的视频,而是提供对变形的局部交互控制。通过对不同物体的广泛实验,证明了我们的方法相比于常见的视频预测框架的有效性。
Jun, 2021
本文提出了一种名为 OODP 的目标导向动态预测框架,通过将环境分解为对象并预测对象间的动态来提高学习动态模型的泛化性能,该框架使用端到端神经网络实现,并可进行无监督学习。实验结果表明,OODP 在各种不同对象布局的新环境中具有显著的泛化能力,且能够从极少量的环境中学习并可以准确地预测大量未见过的环境的动态,同时它还能学习具有语义和视觉可解释的动态模型。
May, 2018
我们提出了一种物体为中心的模型,使用图神经网络中的对比学习在潜在空间中预测未来的状态,并注入了显式归纳偏置以帮助提高模型的预测准确性。我们的模型不仅可捕捉物体交互作用,而且能够提高物体位置的定位能力,且实验表明我们的模型在多个领域中具有显著的优势。
Jul, 2021
本研究提出了一种无需直接监督对象属性即可实现学习物理场景的物体中心表征的方法,我们的模型通过联合学习感知函数,物理交互函数和渲染函数,可以精确地预测物理变化并具有可操作性的直观物理表现。
Dec, 2018