K 均值掩码转换器

ECCVJul, 2022

K-Means Mask Transformer

Qihang Yu, Huiyu Wang, Siyuan Qiao, Maxwell Collins, Yukun Zhu...

TL;DR本文研究了 transformers 在图像识别中的应用，提出了一种基于聚类的 k-means Mask Xformer (kMaX-DeepLab) 模型，在多项数据集上均取得了新的最佳表现，为以后的视觉任务中 transformers 的设计提供了参考。

Abstract

The rise of transformers in vision tasks not only advances network backbone designs, but also starts a brand-new page to achieve end-to-end image recognition (e.g., object detection and panoptic →

transformers image recognition object detection segmentation clustering

发现论文，激发创造

CMT-DeepLab：用于全景分割的聚类蒙版 Transformer

本文提出基于聚类的分割框架 Clustering Mask Transformer (CMT-DeepLab)，该框架重构了现有的用于分割和检测的 Transformer 架构；CMT-DeepLab 将对象查询视为聚类中心，这些聚类中心可用于分割中像素的分组，并通过更密集、更一致的交叉注意力实现更好的分割结果。实验结果表明，CMT-DeepLab 在 COCO 测试集上达到了 55.7% 的 PQ，并较先前方法提高了 4.4% 的 PQ。

Jun, 2022

MaX-DeepLab: 带有 Mask Transformer 的端到端全景分割

紧集分割的最新技术 MaX-DeepLab 使用全新的端对端方法，通过双向 CNN 信道和双倍展开使大规模各类实例的分割更准确。

Dec, 2020

掩模关注掩模变换器用于通用图像分割

提供一种新的架构 Mask2Former，该架构通过应用掩蔽注意力机制提取局部特征来解决多种类型的图像分割任务，包括全景分割、实体分割和语义分割，并且优于当前最佳的专门任务架构。

Dec, 2021

PolyMaX：基于 Mask Transformer 的通用密集预测

通过泛化基于簇预测的方法，将密集预测任务与掩膜变换器框架统一，我们提出的模型 PolyMaX 在 NYUD-v2 数据集的三个基准测试中展现了最先进的性能。

Nov, 2023

MlTr：基于 Transformer 的多标签分类

本文提出了 Multi-label Transformer architecture (MlTr) 并应用于多标签图像分类任务中，利用 windows partitioning、in-window pixel attention、cross-window attention 探索解决 CNN-based 方法遇到的关键问题并取得了性能显著提升。实验结果表明该方法在各种多标签数据集中表现出色，如 MS-COCO、Pascal-VOC 和 NUS-WIDE，分别达到 88.5%、95.8% 和 65.5%。

Jun, 2021

MaXTron: 具有轨迹注意力的视频全景分割的掩码变换器

MaXTron 是一个利用轨迹注意力和 Mask XFormer 解决视频全景分割问题的通用框架，通过增强现成的遮罩变换器以及利用轨迹注意力来提高短期和长期跟踪结果，并且在视频分割基准测试中展示了最先进的表现。

Nov, 2023

基于注意力机制和软最大值的无监督多目标分割

利用平移等变性注意机制进行的无监督物体中心表示学习和多物体检测与分割架构，其中使用注意机制来预测场景中物体的坐标并为每个物体关联一个特征向量。

May, 2022

MST：遮蔽式自监督变压器用于视觉表示

本文提出了 MST 方法，它可以显式捕捉图像的局部上下文并保留全局语义信息，在密集预测任务上有更好的性能，在多个数据集上得到验证，并优于同等时期的监督方法和其可比的变体 DINO。

Jun, 2021

针对未见过物体实例分割的均值漂移遮罩变换器

该研究提出了一个新型变压器结构 MSMFormer，它模拟 vMF 均值漂移聚类算法，从而允许联合训练和推理特征提取器和聚类器。通过将该方法应用于未见物体实例分割，可以得到新的最先进效果，并且可以在 OCID 真实世界对象杂乱室内数据集上获得 87.3 边界 F 值。

Nov, 2022

ReMaX: 针对高效全景分割的放松优化训练

本文提出一种 ReMaX 的新机制，通过在学习时添加对分割蒙版和类别蒙版的松弛约束，可以实现更高效的全景分割，使其更易于部署，同时可以与 MobileNetV3-Small 等高效 backbones 结合使用，从而在 COCO、ADE20K 和 Cityscapes 等数据集上取得最新的最新的最好成果。

Jun, 2023