从两帧图像学习刚体运动分割

Jan, 2021

Learning to Segment Rigid Motions from Two Frames

Gengshan Yang, Deva Ramanan

TL;DR提出了一种模块化网络，利用几何分析独立对象运动能从码流场中恢复，利用 3D 刚体转换对背景和多个刚体运动物体进行分割掩模并获得刚性运动分割的最佳性能，从而显着改善深度和场景流估计。

Abstract

Appearance-based detectors achieve remarkable performance on common scenes, but tend to fail for scenarios lack of training data. Geometric motion segmentation algorithms, however, generalize to novel scenes, but have yet to achieve comparable performance to appearance-based ones, due to noisy motion estimations and degenerate motion configurations. To combi

geometric motion segmentation modular network rigid motion segmentation 3d rigid transformations scene flow estimation

发现论文，激发创造

FusionSeg: 学习结合运动与外观以完全自动化地分割视频中通用对象

本文提出一个结合了外观和动态信息的端到端学习框架，通过两流卷积神经网络，将动态和外观相结合，针对视频中的所有突出物体生成像素级别的分割掩码，并说明了如何通过弱注释视频的引导，以及与现有的图像识别数据集一起训练，提高了分割效果。

Jan, 2017

每个像素都很重要：利用整体三维运动理解进行无监督几何学习

本文通过在未标记视频上观看，利用深度卷积神经网络来学习单张图像的三维几何估计，通过将像素水平的三维物体运动加入到学习框架中，提供了整体的三维场景流理解并有助于单张图像的几何估计。

Jun, 2018

移动单目相机的运动分割

本研究讨论了利用点轨迹和光流等方法相互融合，在移动的单目摄像头中识别和分割运动物体，实现对复杂场景中不同对象运动的模拟，最终取得了最先进的效果。

Sep, 2023

基于密集 RGB-D 场景流的基于运动的物体分割

本研究提出了一种基于深度学习的模型，用于估计连续 RGB-D 图像之间的场景流，可以将场景分成多个刚体运动的对象，利用编码和解码阶段，得到了像素级目标中心、运动和旋转估计，并在大规模合成和真实数据集上测试了模型性能。

Apr, 2018

基于外貌的目标中心运动分割优化

通过引入外观优化方法和视频流的时间一致性，我们提出了一种能够独立发现、分割和跟踪复杂视觉场景中独立移动物体的方法。该方法通过简单的选择机制识别准确的光流预测掩码，并基于示例信息优化有问题的掩码。我们的模型在多个视频分割基准上的性能表现验证了其在单个物体分割上的竞争力，并在更具挑战性的多物体分割问题上明显优于现有模型。最后，我们研究了将我们的模型用作逐帧 Segment Anything 模型的提示的好处。

Dec, 2023

学习移动物体的分割

本文提出了一种基于神经网络的视频分割方法，用于区分视频帧中独立运动的物体，并利用对象运动、外观和时间一致性等多个信息源，通过对数据进行训练得到模型，经过评估表明该模型在 DAVIS、Freiburg-Berkeley 运动分割数据集和 SegTrack 等数据集上表现良好。

Dec, 2017

融合深度学习与几何运动模型的野外零样本单眼运动分割

通过使用深度学习和几何模型融合方法，在无需训练数据的情况下，我们提出了一种能够在移动单目摄像机中以零样本方式实现优秀的运动分割结果的新型单目密集分割方法，并通过实验证明了几何模型融合对于运动分割的有效性。

May, 2024

关注和对比学习的联合深度和运动场估计

通过一种自监督学习框架，提出一种基于动态关注模块的两阶段投影管道，以明确解耦相机自我运动和物体运动，并提出了一种基于对比采样一致性的物体运动场估计方法，该方法在自监督单目深度估计、物体运动分割、单目场景流估计和视觉里程表任务上均优于现有的最先进算法。

Oct, 2021

快速多帧立体场景流与运动分割

本研究提出了一种新的多帧场景流计算方法，包括景深和光流以及相机自运动，同时从移动立体相机中观察动态场景，并将移动对象与固定场景分割开来。该技术在立体匹配和视觉里程计中使用独特的策略，融合移动目标的光流信息和相机基于运动流的信息来提高场景深度和相机自运动估计的精度和效率。

Jul, 2017

视频中的自监督物体运动和深度估计

本文提出了一种自监督学习框架，从视频中估算单个对象的运动和单眼深度，并将对象运动建模为六个自由度刚体变换；此外，该方法还使用实例分割掩码引入对象信息，并通过引入新的几何约束损失项消除运动预测的尺度歧义，实验结果表明，该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动，与自监督研究方法相比，在 3D 场景流预测方面有更好的表现，对动态区域的视差预测也有所贡献。

Dec, 2019