视频语义分割的时序感知分层掩码分类

Sep, 2023

视频语义分割的时序感知分层掩码分类

Temporal-aware Hierarchical Mask Classification for Video Semantic Segmentation

Zhaochong An, Guolei Sun, Zongwei Wu, Hao Tang, Luc Van Gool

TL;DR我们提出了一个用于视频语义分割（VSS）的新解决方案 THE-Mask，首次引入了时态感知的分层物体查询，并利用简单的两轮匹配机制，在训练过程中以最小代价匹配更多的查询对象，同时在推理过程中无需任何额外代价。为了支持多对一的分配，我们设计了一种分层损失来训练带有相应主次层级关系的查询。此外，为了有效捕捉帧间的时态信息，我们提出了一个时态聚合解码器，以无缝融入 VSS 的掩码分类模型，利用时态敏感的多级查询方法，在最新的具有挑战性的 VSS 基准 VSPW 上取得了最先进的性能。

Abstract

Modern approaches have proved the huge potential of addressing semantic segmentation as a mask classification task which is widely used in instance-level segmentation. This paradigm trains models by assigning part of ob

semantic segmentation mask classification video semantic segmentation object queries temporal aggregation decoder

发现论文，激发创造

用于高效视频语义分割的蒙版传播

视频语义分割（VSS）通过为视频序列中的每个像素分配语义标签来完成。本文提出了一种名为 MPVSS 的高效掩码传播框架，通过利用学习到的查询生成一组与关键帧的掩码预测相关的面向片段的流图，并将这些掩码 - 流对变换为非关键帧的掩码预测，从而在保证精度的同时大幅降低计算成本。经过 VSPW 和 Cityscapes 等数据集的大量实验证明，我们的框架在准确性和效率方面取得了 SOTA 水平的折衷，最佳模型在 VSPW 数据集上使用 Swin-L 骨干网络相比于 SOTA MRCFA（使用 MiT-B5）的 mIoU 提高了 4.0%，只需要 26% 的 FLOPs。此外，与单帧 Mask2Former 基线相比，我们的框架在 Cityscapes 验证集上降低了高达 4 倍的 FLOPs，仅引起 2% 的 mIoU 降低。

Oct, 2023

基于遮罩视频一致性的 VSPW 数据集语义分割

我们提出了基于现有模型的基于蒙版视频一致性 (MVC) 的解决方案，通过在预测过程中强制保持遮挡帧之间的一致性来学习蒙版部分的分割结果和视频的前后帧之间的关系，同时采用测试时增强、模型聚合和多模态模型后处理方法，该方法在 VSPW 数据集上获得了 67.27％的 mIoU 性能，在 PVUW2024 挑战 VSS 跟踪中排名第 2。

Jun, 2024

利用时空记忆网络进行视频对象分割

提出了一种用于半监督视频对象分割的新型解决方案，通过利用内存网络中的可用线索和遍历所有可用源中的相关信息来实现更好的处理外观变化和遮挡等挑战，从而实现了最先进的性能。

Apr, 2019

语义引导的视频对象分割

本研究探讨了如何通过引入语义先验来指导外观模型，从而解决半监督视频对象分割的问题，并提出了半监督视频对象分割（SGV）方法，该方法能够在每帧半秒钟的时间内，在两个不同的数据集上使用各种评估指标，比以前的最新技术取得更好的结果。

Apr, 2017

时空强化网络用于视频目标分割

最近，视频对象分割（VOS）网络通常使用基于记忆的方法：对于每个查询帧，通过空间 - 时间匹配预测掩码以与记忆帧相匹配。尽管这些方法具有卓越的性能，但存在两个问题：1）具有挑战性的数据可以破坏相邻视频帧之间的空间 - 时间一致性。2）像素级匹配会由噪音或干扰引起不希望的不匹配。为解决上述问题，我们首先提出在相邻帧之间生成一个辅助帧，作为查询帧的隐式短时间参考。随后，我们为每个视频对象学习一个原型，并在查询帧和记忆帧之间实施原型级匹配。实验证明，在 DAVIS 2017 上我们的网络优于最先进的方法，达到了 86.4% 的 J&F 分数，并且在 YouTube VOS 2018 上获得了 85.0% 的竞争结果。此外，我们的网络的推理速度为 32+ FPS。

May, 2024

视频目标分割的层次化时空 Transformer

本文提出了一种名为 HST 的半监督视频对象分割框架，使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征，并使用内存读取操作产生层次特征以精确重构对象蒙版，该框架在处理复杂场景下具有有效性和鲁棒性，尤其是 HST-B 在多个流行基准测试中优于现有技术。

Jul, 2023

对比遮蔽自编码器用于自监督视频哈希

本研究提出了名为 ConMH 的一阶段自监督视频哈希方法，该方法通过采用编码器 - 解码器结构重构视频以捕获视频语义信息，并通过最大化两个视频增强视图之间的协议以充分利用视频之间的相似性关系。实验结果表明 ConMH 方法在大规模视频数据集上表现出色，是当前最佳方法之一。

Nov, 2022

通过时空对应学习提升视频物体分割

本研究提出了一种基于对空间 - 时间对应匹配的显式监督学习的视频物体分割方法，该方法可以在不增加额外训练成本、没有速度延迟和不需要架构修改的情况下提高目前最先进的匹配式 VOS 方法的性能。

Apr, 2023

深层次语义分割

本文提出了一种用于分层语义分割的新架构 HSSN，它可将现有的分割网络有效地应用于分层语义分割，通过像素嵌入和类别层次结构来实现像素级多标签分类和更好的分割。

Mar, 2022

自监督视频分割的统一掩模嵌入和对应关系学习

通过开发一个统一的框架，其中同时建模跨帧密集对应以进行本地区分特征学习并嵌入对象级上下文进行目标掩码解码，从而使得能够直接从未标记的视频中学习执行基于掩码的连续分割，而不是依赖于基于像素的关联的廉价 “复制” 标签的非直接方法。

Mar, 2023