MCDS-VSS：基于自监督几何和运动滤波的移动相机动态场景视频语义分割

May, 2024

MCDS-VSS：基于自监督几何和运动滤波的移动相机动态场景视频语义分割

MCDS-VSS: Moving Camera Dynamic Scene Video Semantic Segmentation by Filtering with Self-Supervised Geometry and Motion

Angel Villar-Corrales, Moritz Austermann, Sven Behnke

TL;DR我们提出了 MCDS-VSS，这是一种结构化滤波模型，通过自监督学习来估计场景几何和相机自运动，并估计外部物体的运动，从而提高语义分割的时间一致性。我们的模型将汽车场景解析为多个解耦的可解释表示，例如场景几何、自运动和物体运动，并在保持竞争性分割性能的同时实现了优越的时间一致性。

Abstract

autonomous systems, such as self-driving cars, rely on reliable semantic environment perception for decision making. Despite great advances in video semantic segmentation, existing approaches ignore important

autonomous systems semantic segmentation inductive biases self-supervised learning temporal consistency

发现论文，激发创造

基于消失点引导的驾驶场景视频语义分割

利用消失点先验知识的 VPSeg 模型在驾驶场景下进行视频语义分割，通过两个模块（DenseVP 和 MotionVP）利用静态和动态消失点先验知识，实现了更加有效的分割结果。这种模型在两个流行的驾驶分割基准数据集 Cityscapes 和 ACDC 上的实验证明了其在准确性方面的卓越表现，同时计算开销相对较小。

Jan, 2024

用立体视觉进行语义化三维物体和自我运动跟踪，用于自动驾驶

本文提出了一种基于立体视觉的方法，用于在动态自动驾驶情景下跟踪摄像机姿态和三维语义对象，该方法使用易于标注的二维检测和离散视点分类结合轻量级语义推理方法获取粗略的三维物体测量，并基于当前的物体感知相机姿态跟踪实现物体位置的估计与 3D 建模以获得精确度和时间一致性。

Jul, 2018

通过运动分组的自监督视频目标分割

本研究介绍了一种基于运动线索的分割方法，使用 Transformer 网络结构，采用自我监督的方法进行训练，结果在公共基准测试中表现优异，证明在现有视频分割模型中，对于运动线索的重要性，以及对视觉外观存在潜在偏差的可能性。

Apr, 2021

关注和对比学习的联合深度和运动场估计

通过一种自监督学习框架，提出一种基于动态关注模块的两阶段投影管道，以明确解耦相机自我运动和物体运动，并提出了一种基于对比采样一致性的物体运动场估计方法，该方法在自监督单目深度估计、物体运动分割、单目场景流估计和视觉里程表任务上均优于现有的最先进算法。

Oct, 2021

视频中的自监督物体运动和深度估计

本文提出了一种自监督学习框架，从视频中估算单个对象的运动和单眼深度，并将对象运动建模为六个自由度刚体变换；此外，该方法还使用实例分割掩码引入对象信息，并通过引入新的几何约束损失项消除运动预测的尺度歧义，实验结果表明，该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动，与自监督研究方法相比，在 3D 场景流预测方面有更好的表现，对动态区域的视差预测也有所贡献。

Dec, 2019

CeMNet: 自我监督学习用于精准连续自我运动估计

本文提出了一项新颖的自监督学习模型，用于从视频中估计连续的自我运动。该模型通过观察 RGBD 或 RGB 视频流来学习估计相机运动，并确定正确预测未来帧外观的平移和旋转速度。我们的方法不同于其他自我监督结构运动的最近工作，其使用连续运动表述和刚体运动领域的表示，而不是直接预测相机参数。为了使估计在具有多个移动物体的动态环境中具有鲁棒性，我们介绍了一个简单的双组分分割过程，将刚性背景环境与动态场景元素分离。我们在几个基准自我运动数据集上展示了自我训练模型的最新准确性，并突出了该模型提供超强的旋转精度和对非刚性场景运动的处理能力。

Jun, 2018

通过有效的协同分割和数据增强实现自监督的多视图立体匹配

针对现有自监督方法在多视图重建中可能出现的相关点之间颜色不同的问题，本文提出了一种基于语义共分割和数据增强的更可靠监督的框架，其中利用多视图图像中的相互语义来指导语义一致性，同时设计了有效的数据增强机制，以确保对样本的变换鲁棒性。在 DTU 数据集上的实验结果表明，我们提出的方法在无监督方法中取得了最先进的性能，并且甚至可以与有监督方法一较高下。此外，在 Tanks＆Temples 数据集上的广泛实验证明了该方法的有效泛化能力。

Apr, 2021

基于摄像头的稀疏引导网络的三维语义场景补全

使用密集 - 稀疏 - 密集的设计，采用几何先验和占据信息，从语义感知和占据感知种子体素中扩散语义，实现基于相机的语义场景完成 (SSC) 框架。在 SemanticKITTI 数据集上的实验结果表明，该方法优于现有的最先进方法。

Dec, 2023

S4C：自我监督的神经场景补全

我们提出了一种名为 S4C 的第一种自我监督方法，不依赖于 3D 完整数据，能够从单张图像中重建场景，并且只依赖于视频和训练期间从现成图像分割网络生成的伪分割地面实况。与现有方法不同，我们将场景表示为隐式语义场，通过渲染为基础的自我监督损失训练我们的架构，取得了接近完全监督最新方法的性能，并且表现出强大的泛化能力，可以为远距离视点合成准确的分割地图。

Oct, 2023

基于预训练扩散模型的零样本视频语义分割

我们引入了第一个基于预训练扩散模型的零样本视频语义分割方法，该方法在各种视频语义分割基准测试中明显优于现有的零样本图像语义分割方法，并且在 VSPW 数据集上与有监督的视频语义分割方法不相上下，尽管它没有经过显式的 VSS 训练。

May, 2024