视频目标分割的层次化时空 Transformer

Jul, 2023

视频目标分割的层次化时空 Transformer

Hierarchical Spatiotemporal Transformers for Video Object Segmentation

Jun-Sang Yoo, Hongjae Lee, Seung-Won Jung

TL;DR本文提出了一种名为 HST 的半监督视频对象分割框架，使用 Swin Transformer 和 Video Swin Transformer 提取图像和视频特征，并使用内存读取操作产生层次特征以精确重构对象蒙版，该框架在处理复杂场景下具有有效性和鲁棒性，尤其是 HST-B 在多个流行基准测试中优于现有技术。

Abstract

This paper presents a novel framework called HST for semi-supervised video object segmentation (VOS). HST extracts image and video features using the latest Swin Transformer and Video Swin Transformer to inherit their inductive bias for the →

semi-supervised video object segmentation spatiotemporal locality memory read operations object masks

发现论文，激发创造

SSTVOS: 稀疏时空 Transformer 用于视频物体分割

介绍了一种基于 Transformer 的视频对象分割方法，称为 Sparse Spatiotemporal Transformers (SST)，使用稀疏注意力抽取每个对象的每个像素表示，同时具有解决运动分割所需的对应关系计算的归纳偏差。SST 模型在 YouTube-VOS 和 DAVIS 2017 上达到了有竞争力的结果，并具有比现有技术更好的可扩展性和鲁棒性。

Jan, 2021

TransVOS: 带有 Transformer 的视频目标分割

本文提出了一种新的基于 transformer 的框架 TransVOS，利用视觉 transformer 来充分利用和建模时间和空间关系，在保持效果的同时减少了模型参数和复杂性，从而实现了半监督视频对象分割中的最新性能。

Jun, 2021

交互式 Transformer 连体网络用于视频目标分割

本文提出了一种基于双模型网络和交互式变换器的半监督视频对象分割方法，能够有效地从历史帧向当前帧传播上下文信息，同时使用特征交互模块，提高了目标表示的性能，并通过三种基准实验验证了其优于现有方法的性能.

Dec, 2021

高效长短时注意力网络用于无监督视频目标分割

无监督视频对象分割（VOS）旨在识别视频中主要前景对象的轮廓，但以往的方法没有充分利用时空上下文，并且无法在实时中处理这一具有挑战性的任务。因此，本文提出了一种高效的长短时序注意力网络（LSTA），从整体视角解决了无监督 VOS 任务。该网络由长时序记忆和短时序注意力两个主要模块组成，前者通过编码外观模式来捕获过去帧和当前帧的长期全局像素关系，后者通过编码动态模式来揭示附近帧和当前帧的短期局部像素关系。为了加快推理速度，采用了高效投影和基于局部性的滑动窗口，分别实现了两个轻量级模块的几乎线性时间复杂度。在几个基准测试中进行了大量实证研究，证明了所提方法具有高效的有希望的性能。

Sep, 2023

TrickVOS：视频目标分割的一袋技巧

为了提高半监督视频对象分割的性能，本文提出了一种名为 TrickVOS 的通用方法，包含结构感知的混合损失函数、简单的解码器预训练机制以及可降低模型预测误差的便宜跟踪器等级三个方面，并使用一种轻量级网络模型进行实验，取得了与现有最先进方法相媲美的结果，并且可以在移动设备上实时运行。

Jun, 2023

被注意力背叛：一种简洁而有效的自监督视频对象分割方法

我们提出了一个简单而有效的方法来进行自监督视频对象分割 (VOS)。我们的关键观点是，DINO 预训练的 Transformer 中具有的固有结构依赖性可以用于建立视频中的稳健时空对应关系。此外，利用这种对应线索进行简单的聚类就足以产生具有竞争力的分割结果。我们开发了一个简化的架构来应对这些挑战，利用 DINO 预训练的 Transformer 中新兴的对象性，避免了使用额外的多模态或槽关注的需要。我们的方法在多个无监督 VOS 基准测试中展示了最先进的性能，特别在复杂的现实世界多对象视频分割任务中表现出色，如 DAVIS-17-Unsupervised 和 YouTube-VIS-19。

Nov, 2023

双时序记忆网络用于高效的视频目标分割

本文提出了一种端到端的网络来解决视频对象分割中时间建模的根本挑战，包括短期记忆子网络和长期记忆子网络，通过图形学习框架提高局部区域间的可视一致性，在三个常用的数据集上取得了非常好的性能。

Mar, 2020

视频语义分割的时序感知分层掩码分类

我们提出了一个用于视频语义分割（VSS）的新解决方案 THE-Mask，首次引入了时态感知的分层物体查询，并利用简单的两轮匹配机制，在训练过程中以最小代价匹配更多的查询对象，同时在推理过程中无需任何额外代价。为了支持多对一的分配，我们设计了一种分层损失来训练带有相应主次层级关系的查询。此外，为了有效捕捉帧间的时态信息，我们提出了一个时态聚合解码器，以无缝融入 VSS 的掩码分类模型，利用时态敏感的多级查询方法，在最新的具有挑战性的 VSS 基准 VSPW 上取得了最先进的性能。

Sep, 2023

全程 Transformer 装备的端到端指代视频物体分割

提出了一种基于 transformers 的完全建立在 Referring Video Object Segmentation 任务上的框架，通过学习 mask 序列解决视频中物体的分割问题，并通过 Stacked Transformer 来捕捉物体级别的空间上下文。

Sep, 2023

视频对象分割的时空图神经网络基于遮罩重建

该研究提出了一种新型的时空图神经网络（STG-Net）方法，它通过利用所有 Object Proposals 并捕捉它们之间的关联来更精确地重建视频对象分割的遮罩，并通过滑动窗口方法以及记忆模型来捕捉时态相关信息。该方法在四个大型数据集上实现了最新的表现，并展示了其有效性。

Dec, 2020