MCDS-VSS:基于自监督几何和运动滤波的移动相机动态场景视频语义分割
利用消失点先验知识的 VPSeg 模型在驾驶场景下进行视频语义分割,通过两个模块(DenseVP 和 MotionVP)利用静态和动态消失点先验知识,实现了更加有效的分割结果。这种模型在两个流行的驾驶分割基准数据集 Cityscapes 和 ACDC 上的实验证明了其在准确性方面的卓越表现,同时计算开销相对较小。
Jan, 2024
本文提出了一种基于立体视觉的方法,用于在动态自动驾驶情景下跟踪摄像机姿态和三维语义对象,该方法使用易于标注的二维检测和离散视点分类结合轻量级语义推理方法获取粗略的三维物体测量,并基于当前的物体感知相机姿态跟踪实现物体位置的估计与 3D 建模以获得精确度和时间一致性。
Jul, 2018
本研究介绍了一种基于运动线索的分割方法,使用 Transformer 网络结构,采用自我监督的方法进行训练,结果在公共基准测试中表现优异,证明在现有视频分割模型中,对于运动线索的重要性,以及对视觉外观存在潜在偏差的可能性。
Apr, 2021
通过一种自监督学习框架,提出一种基于动态关注模块的两阶段投影管道,以明确解耦相机自我运动和物体运动,并提出了一种基于对比采样一致性的物体运动场估计方法,该方法在自监督单目深度估计、物体运动分割、单目场景流估计和视觉里程表任务上均优于现有的最先进算法。
Oct, 2021
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的情况下处理数据并能够捕捉对象的运动,与自监督研究方法相比,在 3D 场景流预测方面有更好的表现,对动态区域的视差预测也有所贡献。
Dec, 2019
本文提出了一项新颖的自监督学习模型,用于从视频中估计连续的自我运动。该模型通过观察 RGBD 或 RGB 视频流来学习估计相机运动,并确定正确预测未来帧外观的平移和旋转速度。我们的方法不同于其他自我监督结构运动的最近工作,其使用连续运动表述和刚体运动领域的表示,而不是直接预测相机参数。为了使估计在具有多个移动物体的动态环境中具有鲁棒性,我们介绍了一个简单的双组分分割过程,将刚性背景环境与动态场景元素分离。我们在几个基准自我运动数据集上展示了自我训练模型的最新准确性,并突出了该模型提供超强的旋转精度和对非刚性场景运动的处理能力。
Jun, 2018
针对现有自监督方法在多视图重建中可能出现的相关点之间颜色不同的问题,本文提出了一种基于语义共分割和数据增强的更可靠监督的框架,其中利用多视图图像中的相互语义来指导语义一致性,同时设计了有效的数据增强机制,以确保对样本的变换鲁棒性。在 DTU 数据集上的实验结果表明,我们提出的方法在无监督方法中取得了最先进的性能,并且甚至可以与有监督方法一较高下。此外,在 Tanks&Temples 数据集上的广泛实验证明了该方法的有效泛化能力。
Apr, 2021
使用密集 - 稀疏 - 密集的设计,采用几何先验和占据信息,从语义感知和占据感知种子体素中扩散语义,实现基于相机的语义场景完成 (SSC) 框架。在 SemanticKITTI 数据集上的实验结果表明,该方法优于现有的最先进方法。
Dec, 2023
我们提出了一种名为 S4C 的第一种自我监督方法,不依赖于 3D 完整数据,能够从单张图像中重建场景,并且只依赖于视频和训练期间从现成图像分割网络生成的伪分割地面实况。与现有方法不同,我们将场景表示为隐式语义场,通过渲染为基础的自我监督损失训练我们的架构,取得了接近完全监督最新方法的性能,并且表现出强大的泛化能力,可以为远距离视点合成准确的分割地图。
Oct, 2023
我们引入了第一个基于预训练扩散模型的零样本视频语义分割方法,该方法在各种视频语义分割基准测试中明显优于现有的零样本图像语义分割方法,并且在 VSPW 数据集上与有监督的视频语义分割方法不相上下,尽管它没有经过显式的 VSS 训练。
May, 2024