通过视频传播和标签弛豫来改进语义分割
本文提出了一种新的标签传播方法,即 Warp-Refine Propagation,通过将几何和语义线索结合起来,半监督地利用时间轴上的循环一致性,学习精细地修正几何变形的标签并将它们与学习到的语义先验相结合,以高效地自动标注视频序列,这种方法显著提高了标签传播的表现,并实现了在三个语义分割基准上的竞争性结果 improvement。
Sep, 2021
本文提出了一种高清视频实时语义分割的混合 GPU / CPU 方法,并给出了一种称之为 EVS 的管道,该管道结合了 CPU 和 GPU 两种不同的处理方式,以优化视频帧率和分割准确度。
Dec, 2019
视频语义分割(VSS)通过为视频序列中的每个像素分配语义标签来完成。本文提出了一种名为 MPVSS 的高效掩码传播框架,通过利用学习到的查询生成一组与关键帧的掩码预测相关的面向片段的流图,并将这些掩码 - 流对变换为非关键帧的掩码预测,从而在保证精度的同时大幅降低计算成本。经过 VSPW 和 Cityscapes 等数据集的大量实验证明,我们的框架在准确性和效率方面取得了 SOTA 水平的折衷,最佳模型在 VSPW 数据集上使用 Swin-L 骨干网络相比于 SOTA MRCFA(使用 MiT-B5)的 mIoU 提高了 4.0%,只需要 26% 的 FLOPs。此外,与单帧 Mask2Former 基线相比,我们的框架在 Cityscapes 验证集上降低了高达 4 倍的 FLOPs,仅引起 2% 的 mIoU 降低。
Oct, 2023
本文提出了一种利用未标记数据改进的视频语义分割训练模型,该模型结合了卷积架构和时空转换器循环层,并能够通过光流适应性地门控使时间上的标记信息传递,模型通过未标记帧来改善视频分割准确性,并在基于多个深度架构中进行了广泛实验。
Dec, 2016
通过结合基于 SfM 的 SAM 模型将视频中的目标进行分割和跟踪的方法,提出一种减少手动注释工作量的视频对象跟踪系统。系统性能经过计算时间、与手动标签的掩码 IOU 和跟踪损失数量等三个指标的评估,结果表明该系统在跟踪视频帧中的物体方面较人工表现有显著计算时间改善,但在性能上存在一定程度的退化。
Oct, 2023
本文通过对传输提取方法的实证研究,设计了端到端的记忆网络,对核心方法、输入线索、多物体组合和训练策略等方面进行了详细的剖析研究,在 DAVIS 2017 数据集上取得了 76.1 的显著性能提升。
Jul, 2019
本研究提出了一种视频语义分割框架,该框架利用特征传播模块和自适应调度器相结合的方法,通过时间间隔自适应地融合特征并根据准确性预测动态分配计算量,以实现低延迟和高语义分割质量。实验结果表明,在与现有模型的比较中,该模型在 Cityscapes 和 CamVid 这两个数据集上获得了竞争性的性能,并将延迟从 360 ms 降低到 119 ms。
Apr, 2018
本文提出了一种基于深度学习的实例级对象分割框架,其中包括使用 ResNet-101 进行前景 / 背景分割的通用模型训练,基于该通用模型接受带标注对象的训练数据,通过迭代学习实例级模型的方法以及使用空间传播网络和滤波器对分割结果进行进一步优化,以实现不同视频中的实例级对象分割。
Sep, 2017