从视频中无监督地发现 3D 物理对象
本文提出一种基于像素几何和物体运动模型的运动预测方法,通过将图像分为运动一致的区域并利用深度构建最佳匹配的流场基础来减少从单个图像重建流场的不确定性,并在场景结构和物体运动建模方面取得了最新的结果,同时对预测深度图的评估显示出可靠的单眼深度估计性能。
Jul, 2023
开发了一个动作条件视频预测模型,能够显式地模拟像素运动,从而学习关于物理对象运动的知识。同时,模型对对象外貌部分不变,可对以前未见过的对象进行推广。我们介绍了一个包含推动动作的 59,000 个机器人交互数据集,包括一个具有新颖对象的测试集。实验结果表明,与现有方法相比,我们的方法在定量和定性方面都能更准确地预测视频。
May, 2016
本文提出了基于无标注视频的 “物体部件、结构和动态模型”(PSD)模型,可以同时学习层次化、解耦合的物体表示以及物体部件的动态模型,并且在多个真实和合成数据集上都表现良好,实现了物体部件的分割、层次结构的构建以及运动分布的捕捉。
Mar, 2019
本文针对对象发现这一问题,通过选择动态对象并使用自编码器提取图像特征并加入来自运动分割的弱学习信号,成功地从复杂场景中分离出运动和静止的动态对象,相较于其它抽象特征的方法在 KITTI 数据集上有更好的表现。
Mar, 2022
本文提出一种无监督学习方法,通过观察未标记的多视角视频,学习将一个包含多种物体的复杂场景的单幅图像观察映射到一个三维神经场景表示,可以将该表示分解为可移动和不可移动的部分,并通过神经渲染进行自监督训练,从而实现基于对象的三维表示、新视角合成、实例分割和三维边界框预测等多种下游任务,并通过对象操作(如删除、插入和刚体运动)实现场景编辑。
Jul, 2022
本研究针对无监督的视频对象结构和动态提取及预测的挑战,采用基于关键点的图像表示方法,并在关键点的动力学模型上进行学习,以实现像素空间中的稳定学习和错误复合的避免。该方法在像素级视频预测和需要物体级运动动态理解的下游任务方面均优于非结构化表示,并在多个数据集和任务中进行了评估和验证。
Jun, 2019
提出了一种基于线性运动的单目视频三维物体检测方法,该方法通过将物体方向分解为两个部分并引入自平衡的三维置信度方法,有效地提高了三维定位精度,同时在 KITTI 自动驾驶数据集上取得了最好的表现。
Jul, 2020
本研究提出一种结合发现和跟踪两个过程的算法,用于自动定位包含在视频集合中的物体,并能发现跨不同视频的物体实例之间的隐含拓扑关系,实验表明该算法在多目标定位方面表现优异
May, 2015
本文介绍了一种通过采用从野外视频数据中提取的三维监督来重建手持物体的方法,并使用数据驱动的三维形状先验进行训练,结果表明这种间接的三维监督信号可以在没有直接现实世界三维监督的情况下有效地预测真实世界中的手持物体的三维形状。
May, 2023