学习物理定律的下一帧预测的能力
我们提出了一种物体为中心的模型,使用图神经网络中的对比学习在潜在空间中预测未来的状态,并注入了显式归纳偏置以帮助提高模型的预测准确性。我们的模型不仅可捕捉物体交互作用,而且能够提高物体位置的定位能力,且实验表明我们的模型在多个领域中具有显著的优势。
Jul, 2021
本文提出了一种基于无监督方法的视频帧预测技术,相比直接预测未来帧中每个像素点,本文预测未来帧的变换过程,同时提出了一种新的评估协议,该方法在 UCF-101 数据集上进行了验证,在参数和计算成本上更加高效。
Jan, 2017
本研究提出使用可微的物理引擎在行动条件下的视频表示网络中学习物理潜在表示。我们使用监督和自监督学习方法来训练我们的网络,并确定物理属性。实验中,我们演示了我们的网络可以从视频和行动序列中学习编码图像并识别物理属性,我们还比较了我们的受监督和自我监督方法的准确性,并展示了我们的方法预测未来视频帧的能力。
Sep, 2020
开发了一个动作条件视频预测模型,能够显式地模拟像素运动,从而学习关于物理对象运动的知识。同时,模型对对象外貌部分不变,可对以前未见过的对象进行推广。我们介绍了一个包含推动动作的 59,000 个机器人交互数据集,包括一个具有新颖对象的测试集。实验结果表明,与现有方法相比,我们的方法在定量和定性方面都能更准确地预测视频。
May, 2016
本研究提出了一个简单而有效的框架,可以通过利用前序训练数据中的潜在分布来预测合理的未来态势。该框架融合了一种新颖的优化方案,并且在量化和定性方面的实验中得到了显著的提高。同时,我们的方法可以与现有的随机预测模型无缝集成,具有预测未见类别运动的潜力。
Jul, 2020
我们提出了一种基于归一化流的多帧视频预测方法,可以直接优化数据可能性并生成高质量的随机预测,该方法可以实现对于视频生成建模的可行且竞争性的方法。
Mar, 2019
该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用,探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战,并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好的采样计划,实验结果证明了学习以时间戳为条件和预测使用不变模态的重要性。
Apr, 2024
该论文提出了一种神经模型,同时基于物理学原理和视觉先验进行推理和预测,通过对粒子的估计预测物理参数,即视觉基础,并在刚体、可变形材料和流体的复杂环境中证明了它的有效性,允许模型在几次观察内推断出物理特性,从而快速适应未见过的场景并进行准确的未来预测。
Apr, 2020