基于原型的高效 MaskFormer 图像分割方法

CVPRFeb, 2024

基于原型的高效 MaskFormer 图像分割方法

PEM: Prototype-based Efficient MaskFormer for Image Segmentation

Niccolò Cavagnero, Gabriele Rosi, Claudia Ruttano, Francesca Pistilli, Marco Ciccone...

TL;DR最近基于 Transformer 的架构在图像分割领域取得了令人印象深刻的成果。为了填补传统架构在计算资源上的限制，本文提出了一种高效的基于原型的 Transformer 架构 (PEM)，它利用视觉特征的冗余性来限制计算并提高效率，同时引入了高效的多尺度特征金字塔网络，能够高效地提取具有高语义内容的特征。在两个不同的数据集上对 PEM 架构进行了测试和评估，表现出色，优于特定任务的架构，并且与计算代价较高的基准模型相媲美甚至更优。

Abstract

Recent transformer-based architectures have shown impressive results in the field of image segmentation. Thanks to their flexibility, they obtain outstanding performance in multiple segmentation tasks, such as se

transformer-based architectures image segmentation prototype-based cross-attention multi-scale feature pyramid network semantic and panoptic segmentation

发现论文，激发创造

掩模关注掩模变换器用于通用图像分割

提供一种新的架构 Mask2Former，该架构通过应用掩蔽注意力机制提取局部特征来解决多种类型的图像分割任务，包括全景分割、实体分割和语义分割，并且优于当前最佳的专门任务架构。

Dec, 2021

金字塔融合变压器用于语义分割

本研究提出了一种基于 Transformer 的 Feature Pyramid Fusion Transformer (PFT) 方法，结合学习到的查询和 Feature Pyramid 中的每个空间特征进行交叉注意力和交叉尺度的互补信息交换，提高了面向掩码的语义分割性能，并在三个广泛使用的语义分割数据集上达到了与现有最佳方法相比的最先进的性能。

Jan, 2022

基于金字塔结构的高效统一 Transformer 语义分割模型

本文提出了一种统一的框架（UN-EPT）来解决复杂场景中的语义分割问题，该框架综合考虑了上下文信息和边界伪影。该模型采用了稀疏采样策略来提高上下文建模的效率，并引入了单独的空间分支来捕捉图像细节，整个模型可以端到端地训练。该方法在三个常用的语义分割数据集上表现出优秀的性能，并具有较低的内存占用。

Jul, 2021

PEMMA: 用于医学图像分割的参数高效多模态适应性

提出了一种适用于基于 CT 扫描模型的轻量级升级的参数高效多模态适应（PEMMA）框架，以将 PET 扫描纳入其中，通过将注意力权重进行低秩适应（LoRA）实现参数高效调整，同时最小化交叉模态耦合，使单一模态下训练和更新联合模型成为可能，并且在仅训练单一模态时，在可训练参数仅为 8% 的情况下，实现了与早期融合技术相当的结果，并在 PET 扫描的平均 Dice 分数上取得了显著的 + 28% 改善。

Apr, 2024

BiSeNet 的复仇：高效的多任务图像分割

提出了一种针对图像分割的高效多任务架构 BiSeNetFormer，能够在保持高效和准确性的同时处理多种分割任务，其结果表明 BiSeNetFormer 在模型效率和任务适应性之间构建了桥梁，具有快速、高效和多任务分割网络的显著进展。

Apr, 2024

MP-Former：基于遮罩引导的 Transformer 图像分割算法

本文介绍了一种基于掩模驱动 Transformer 的方法，通过使用噪声原始掩模进行训练和获取更一致的优化目标来提高 Mask2Former 的掩模注意力在图像分割中的表现，实验结果表明，该方法可显著提升实例分割、全景分割和语义分割的精度，并且训练速度更快，不会在推断阶段引入额外的计算。

Mar, 2023

SeMask: 用于语义分割的语义掩蔽变形器

本文提出了 SeMask 框架，将语义信息嵌入预训练分层 Transformer 模块的编码器中以提高模型性能，并使用轻量级语义解码器进行训练。实验结果表明，嵌入语义先验可以显著提高模型效果，并且与 Swin Transformer 和 Mix Transformer 等模型相结合，达到了 58.25％的 mIoU 表现。

Dec, 2021

语义分割的 Transformer 分割器

本文提出了 Segmenter，一种用于语义分割的 Transformer 模型，利用一种点刀线性解码器或一个 mask transformer 解码器将图像分割为不同的类别，通过对模型参数的分析，表明 Segmenter 在 ADE20K 和 Pascal Context 数据集上具有良好的性能。

May, 2021

SegFormer：使用 Transformer 简单高效的语义分割设计

SegFormer 是一种简单、高效而强大的语义分割框架，它将 Transformers 和轻量级的多层感知机解码器统一在一起。我们展示了这种轻量简单设计对提高 Transformers 语义分割效率的关键所在，并为 SegFormer 构建了一系列模型，其中最好的模型 - SegFormer-B5，在 Cityscapes 验证集上达到了 84.0％的 mIoU，显示了出色的零 - shot 鲁棒性。

May, 2021

金字塔医疗转换器用于医学图像分割

通过应用金字塔形网络结构、多尺度注意力和 CNN 特征提取，我们提出了一种称为金字塔医疗变压器（PMTrans）的新型方法，可以更好地处理医学图像分割任务。在三个医学图像数据集上的实验结果表明，PMTrans 相较于最新的基于 CNN 和变压器的模型，具有更好的性能。

Apr, 2021