Oct, 2023

用于高效视频语义分割的蒙版传播

TL;DR视频语义分割(VSS)通过为视频序列中的每个像素分配语义标签来完成。本文提出了一种名为 MPVSS 的高效掩码传播框架,通过利用学习到的查询生成一组与关键帧的掩码预测相关的面向片段的流图,并将这些掩码 - 流对变换为非关键帧的掩码预测,从而在保证精度的同时大幅降低计算成本。经过 VSPW 和 Cityscapes 等数据集的大量实验证明,我们的框架在准确性和效率方面取得了 SOTA 水平的折衷,最佳模型在 VSPW 数据集上使用 Swin-L 骨干网络相比于 SOTA MRCFA(使用 MiT-B5)的 mIoU 提高了 4.0%,只需要 26% 的 FLOPs。此外,与单帧 Mask2Former 基线相比,我们的框架在 Cityscapes 验证集上降低了高达 4 倍的 FLOPs,仅引起 2% 的 mIoU 降低。