SeqFormer: 序列 Transformer 用于视频实例分割

ECCVDec, 2021

SeqFormer: 序列 Transformer 用于视频实例分割

SeqFormer: Sequential Transformer for Video Instance Segmentation

Junfeng Wu, Yi Jiang, Song Bai, Wenqing Zhang, Xiang Bai

TL;DR本文介绍了 SeqFormer，一种基于视频实例分割的模型，通过注意力机制捕捉视频帧之间的关系，定位每帧的实例并聚合时间信息，从而实现自然的实例跟踪并预测动态遮罩序列，结合 Swin Transformer 可获得更高的 AP，是视频实例分割领域的强基线模型。

Abstract

In this work, we present seqformer for video instance segmentation. seqformer follows the principle of vision transformer that models inst

seqformer video instance segmentation attention mechanisms temporal information swing transformer

发现论文，激发创造

Mask2Former 用于视频实例分割

通过直接预测 3D 分割体积，我们展示了通用的图像分割架构轻松推广到视频分割领域，Mask2Former 在视频实例分割方面也取得了最先进的性能，同时在 YouTubeVIS-2019 和 YouTubeVIS-2021 上分别达到了 60.4 AP 和 52.6 AP。由于在图像分割方面的多才多艺，我们相信 Mask2Former 也能处理视频语义和全景分割，我们希望这将使最新的视频分割研究更易于使用并引起更多人对通用图像和视频分割架构的关注。

Dec, 2021

SegFormer：使用 Transformer 简单高效的语义分割设计

SegFormer 是一种简单、高效而强大的语义分割框架，它将 Transformers 和轻量级的多层感知机解码器统一在一起。我们展示了这种轻量简单设计对提高 Transformers 语义分割效率的关键所在，并为 SegFormer 构建了一系列模型，其中最好的模型 - SegFormer-B5，在 Cityscapes 验证集上达到了 84.0％的 mIoU，显示了出色的零 - shot 鲁棒性。

May, 2021

AVSegFormer: 基于 Transformer 的音视频分割

本文提出了一种基于 transformer 架构的音视频分割（AVS）框架 AVSegFormer，该框架引入了音频查询和可学习查询，利用注意力机制实现选择性关注有关的视觉特征，并使用中间 mask 损失增强了解码器的监督，有效解决了音视频分割任务中的重要挑战，实验结果表明，AVSegFormer 在 AVS 基准测试中取得了最佳性能。

Jul, 2023

ActionFormer：使用 Transformers 定位行为片段

ActionFormer 是一种基于 Transformer 网络的模型，采用了多尺度特征表示和本地自我注意力机制来识别视频中的动作。它在 THUMOS14 上取得了 71.0％ mAP，在 ActivityNet 1.3 和 EPIC-Kitchens 100 中也表现出色。

Feb, 2022

ASFormer：用于动作分割的 Transformer

本文提出了一种名为 ASFormer 的高效 Transformer 模型，通过加入局部连接归纳先验、应用预定的分层表示模式和精心设计的解码器来解决应用 Transformer 模型于动作分割任务时遇到的问题，并在三个公共数据集上进行了广泛实验。

Oct, 2021

TubeFormer-DeepLab: 视频蒙版转换器

提出了 TubeFormer-DeepLab 模型，它是第一次以统一的方式处理多种核心视频分割任务。通过直接预测标注不同值的视频管道，该模型不仅显着简化了视频分割模型，而且在多个视频分割基准测试中取得了最先进的结果。

May, 2022

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022

OSFormer: 基于 Transformers 的单阶段伪装实例分割

OSFormer 是第一个使用一种阶段变压器框架来进行伪装实例分割（CIS）的研究，包括关键设计的位置感知变压器（LST）和粗到细的融合（CFF）来融合来自 LST 编码器和 CNN 主干的多样化上下文信息，在不需要大量训练数据（仅 60 个时期下的 3,040 个样本）的情况下，OSFormer 达到了 41％AP，并实现了良好的收敛效率。

Jul, 2022

多实体视频 Transformer 用于细粒度视频表示学习

通过重新审视变形器结构来改进视频表示学习领域的状态，利用多实体视频变换器架构及自我监督方法实现了在多个细粒度视频基准上的最先进结果。

Nov, 2023

UniFormer：用于高效时空表示学习的统一 Transformer

本研究提出了一种新型的视频分类模型 ——UniFormer，它集成了 3D 卷积和自注意力机制的优点，通过浅层和深层分别学习本地和全局特征，从而在计算量和准确性之间取得了理想的平衡，经实验证明该模型的泛化和针对性能均优于其他方法。

Jan, 2022