掩模关注掩模变换器用于通用图像分割

CVPRDec, 2021

掩模关注掩模变换器用于通用图像分割

Masked-attention Mask Transformer for Universal Image Segmentation

Bowen Cheng, Ishan Misra, Alexander G. Schwing, Alexander Kirillov, Rohit Girdhar

TL;DR提供一种新的架构 Mask2Former，该架构通过应用掩蔽注意力机制提取局部特征来解决多种类型的图像分割任务，包括全景分割、实体分割和语义分割，并且优于当前最佳的专门任务架构。

Abstract

image segmentation is about grouping pixels with different semantics, e.g., category or instance membership, where each choice of semantics defines a task. While only the semantics of each task differ, current research focuses on designing specialized architectures for each task. We pr

image segmentation mask2former masked attention panoptic segmentation semantic segmentation

发现论文，激发创造

MP-Former：基于遮罩引导的 Transformer 图像分割算法

本文介绍了一种基于掩模驱动 Transformer 的方法，通过使用噪声原始掩模进行训练和获取更一致的优化目标来提高 Mask2Former 的掩模注意力在图像分割中的表现，实验结果表明，该方法可显著提升实例分割、全景分割和语义分割的精度，并且训练速度更快，不会在推断阶段引入额外的计算。

Mar, 2023

Mask2Anomaly：面具变换器用于通用开放集分割

将传统的按像素分类的方法转变为基于掩码分类的方法，提出了 Mask2Anomaly 方法来解决异常分割、开放集语义分割和开放集全景分割问题，并引入了全局掩码注意力模块、掩码对比学习、掩码细化解决方案和基于掩码架构特性的未知实例挖掘。经过全面的定性和定量评估，我们展示了 Mask2Anomaly 在异常分割、开放集语义分割和开放集全景分割基准中取得了最新的最佳结果。

Sep, 2023

Mask2Former 用于视频实例分割

通过直接预测 3D 分割体积，我们展示了通用的图像分割架构轻松推广到视频分割领域，Mask2Former 在视频实例分割方面也取得了最先进的性能，同时在 YouTubeVIS-2019 和 YouTubeVIS-2021 上分别达到了 60.4 AP 和 52.6 AP。由于在图像分割方面的多才多艺，我们相信 Mask2Former 也能处理视频语义和全景分割，我们希望这将使最新的视频分割研究更易于使用并引起更多人对通用图像和视频分割架构的关注。

Dec, 2021

基于原型的高效 MaskFormer 图像分割方法

最近基于 Transformer 的架构在图像分割领域取得了令人印象深刻的成果。为了填补传统架构在计算资源上的限制，本文提出了一种高效的基于原型的 Transformer 架构 (PEM)，它利用视觉特征的冗余性来限制计算并提高效率，同时引入了高效的多尺度特征金字塔网络，能够高效地提取具有高语义内容的特征。在两个不同的数据集上对 PEM 架构进行了测试和评估，表现出色，优于特定任务的架构，并且与计算代价较高的基准模型相媲美甚至更优。

Feb, 2024

SeMask: 用于语义分割的语义掩蔽变形器

本文提出了 SeMask 框架，将语义信息嵌入预训练分层 Transformer 模块的编码器中以提高模型性能，并使用轻量级语义解码器进行训练。实验结果表明，嵌入语义先验可以显著提高模型效果，并且与 Swin Transformer 和 Mix Transformer 等模型相结合，达到了 58.25％的 mIoU 表现。

Dec, 2021

K 均值掩码转换器

本文研究了 transformers 在图像识别中的应用，提出了一种基于聚类的 k-means Mask Xformer (kMaX-DeepLab) 模型，在多项数据集上均取得了新的最佳表现，为以后的视觉任务中 transformers 的设计提供了参考。

Jul, 2022

金字塔融合变压器用于语义分割

本研究提出了一种基于 Transformer 的 Feature Pyramid Fusion Transformer (PFT) 方法，结合学习到的查询和 Feature Pyramid 中的每个空间特征进行交叉注意力和交叉尺度的互补信息交换，提高了面向掩码的语义分割性能，并在三个广泛使用的语义分割数据集上达到了与现有最佳方法相比的最先进的性能。

Jan, 2022

TubeFormer-DeepLab: 视频蒙版转换器

提出了 TubeFormer-DeepLab 模型，它是第一次以统一的方式处理多种核心视频分割任务。通过直接预测标注不同值的视频管道，该模型不仅显着简化了视频分割模型，而且在多个视频分割基准测试中取得了最先进的结果。

May, 2022

OneFormer3D：统一点云分割的一种 Transformer

本文提出了一种统一、简单、有效的模型 OneFormer3D，利用可学习的卷积核同时处理实例分割和语义分割，通过输入统一的实例和语义查询来训练，并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能，同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。

Nov, 2023

像素级分类不是语义分割所需的全部

提出了基于掩膜分类模型的方法 MaskFormer，通过预测一组二进制掩膜，使语义分割和全景分割任务的解决变得统一，并在各项指标上实现了优秀的实验结果。

Jul, 2021