从两帧图像学习刚体运动分割
本文提出一个结合了外观和动态信息的端到端学习框架,通过两流卷积神经网络,将动态和外观相结合,针对视频中的所有突出物体生成像素级别的分割掩码,并说明了如何通过弱注释视频的引导,以及与现有的图像识别数据集一起训练,提高了分割效果。
Jan, 2017
本文通过在未标记视频上观看,利用深度卷积神经网络来学习单张图像的三维几何估计,通过将像素水平的三维物体运动加入到学习框架中,提供了整体的三维场景流理解并有助于单张图像的几何估计。
Jun, 2018
本研究提出了一种基于深度学习的模型,用于估计连续 RGB-D 图像之间的场景流,可以将场景分成多个刚体运动的对象,利用编码和解码阶段,得到了像素级目标中心、运动和旋转估计,并在大规模合成和真实数据集上测试了模型性能。
Apr, 2018
通过引入外观优化方法和视频流的时间一致性,我们提出了一种能够独立发现、分割和跟踪复杂视觉场景中独立移动物体的方法。该方法通过简单的选择机制识别准确的光流预测掩码,并基于示例信息优化有问题的掩码。我们的模型在多个视频分割基准上的性能表现验证了其在单个物体分割上的竞争力,并在更具挑战性的多物体分割问题上明显优于现有模型。最后,我们研究了将我们的模型用作逐帧 Segment Anything 模型的提示的好处。
Dec, 2023
本文提出了一种基于神经网络的视频分割方法,用于区分视频帧中独立运动的物体,并利用对象运动、外观和时间一致性等多个信息源,通过对数据进行训练得到模型,经过评估表明该模型在 DAVIS、Freiburg-Berkeley 运动分割数据集和 SegTrack 等数据集上表现良好。
Dec, 2017
通过使用深度学习和几何模型融合方法,在无需训练数据的情况下,我们提出了一种能够在移动单目摄像机中以零样本方式实现优秀的运动分割结果的新型单目密集分割方法,并通过实验证明了几何模型融合对于运动分割的有效性。
May, 2024
通过一种自监督学习框架,提出一种基于动态关注模块的两阶段投影管道,以明确解耦相机自我运动和物体运动,并提出了一种基于对比采样一致性的物体运动场估计方法,该方法在自监督单目深度估计、物体运动分割、单目场景流估计和视觉里程表任务上均优于现有的最先进算法。
Oct, 2021
本研究提出了一种新的多帧场景流计算方法,包括景深和光流以及相机自运动,同时从移动立体相机中观察动态场景,并将移动对象与固定场景分割开来。该技术在立体匹配和视觉里程计中使用独特的策略,融合移动目标的光流信息和相机基于运动流的信息来提高场景深度和相机自运动估计的精度和效率。
Jul, 2017
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动,与自监督研究方法相比,在 3D 场景流预测方面有更好的表现,对动态区域的视差预测也有所贡献。
Dec, 2019