ReMaX: 针对高效全景分割的放松优化训练

Jun, 2023

ReMaX: 针对高效全景分割的放松优化训练

ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation

Shuyang Sun, Weijun Wang, Qihang Yu, Andrew Howard, Philip Torr...

TL;DR本文提出一种 ReMaX 的新机制，通过在学习时添加对分割蒙版和类别蒙版的松弛约束，可以实现更高效的全景分割，使其更易于部署，同时可以与 MobileNetV3-Small 等高效 backbones 结合使用，从而在 COCO、ADE20K 和 Cityscapes 等数据集上取得最新的最新的最好成果。

Abstract

This paper presents a new mechanism to facilitate the training of mask transformers for efficient panoptic segmentation, democratizing its deployment. We observe that due to its high complexity, the training objective of panoptic segmentation will inevitably lead to much higher

mask transformers panoptic segmentation false positive penalization remax efficient panoptic segmentation

发现论文，激发创造

MaX-DeepLab: 带有 Mask Transformer 的端到端全景分割

紧集分割的最新技术 MaX-DeepLab 使用全新的端对端方法，通过双向 CNN 信道和双倍展开使大规模各类实例的分割更准确。

Dec, 2020

K 均值掩码转换器

本文研究了 transformers 在图像识别中的应用，提出了一种基于聚类的 k-means Mask Xformer (kMaX-DeepLab) 模型，在多项数据集上均取得了新的最佳表现，为以后的视觉任务中 transformers 的设计提供了参考。

Jul, 2022

MaskConver: 重访用于全景分割的纯卷积模型

该研究论文提出了一种名为 MaskConver 的新型全景分割架构，通过预测物体和背景的中心来实现事物和物质的完全统一表示。通过引入 ConvNeXt-UNet 解码器，该模型在 COOC 全景验证集上相比基于卷积和 transformer 的模型以及现代基于卷积的模型和 transformer-based models 取得了更好的性能，此外，优化后的 MaskConver 在移动设备上实时运行，并在相同 FLOPs / 延迟限制下提高了 6.4% 的 PQ 值。

Dec, 2023

具有局部掩码重建的高效自监督视觉预训练

本研究提出一种名为 LoMaR 的局部掩码重建的学习机制，该方法与生成式自监督视觉学习方法（如 MAE 和 BEiT）相比，可以更加高效地在简单的转换器编码器上进行掩码重建，同时也更具准确性，可轻松集成到其他生成式自监督学习方法中。

Jun, 2022

基于密集检测的实时全景分割

本文提出了一种基于密集检测和全局自注意力机制的新型单次全景分割网络，该网络采用参数自由的掩码构建方法，大大降低了计算复杂度，实现了高效的实时性能，并在 Cityscapes 和 COCO 基准测试上取得了很好的效果。

Dec, 2019

全景分割的训练和推理统一化

我们提出了一种端到端的网络，用于连接全景分割的训练和推理管道，通过使用密集实例亲和力来捕获像素对属于相同实例的概率，并与 ResNet-50 骨干网络配合使用，实现了对 Cityscapes 和 COCO 数据集的新记录。

Jan, 2020

基于原型的高效 MaskFormer 图像分割方法

最近基于 Transformer 的架构在图像分割领域取得了令人印象深刻的成果。为了填补传统架构在计算资源上的限制，本文提出了一种高效的基于原型的 Transformer 架构 (PEM)，它利用视觉特征的冗余性来限制计算并提高效率，同时引入了高效的多尺度特征金字塔网络，能够高效地提取具有高语义内容的特征。在两个不同的数据集上对 PEM 架构进行了测试和评估，表现出色，优于特定任务的架构，并且与计算代价较高的基准模型相媲美甚至更优。

Feb, 2024

MixReorg：跨模态混合 Patch 重组是开放世界语义分割的良好掩膜学习器

最近，在具有图像级文本监督训练的语义分割模型中，在具有挑战性的开放世界场景中展示出了有希望的结果。然而，这些模型仍然面临在像素级学习细粒度语义对齐和预测准确的对象掩码方面的困难。为了解决这个问题，我们提出了 MixReorg，这是一种用于语义分割的新颖而直接的预训练范例，它增强了模型在重新组织混合在图像中的补丁时的能力，探索局部视觉相关性和全局语义连贯性。我们的方法涉及通过混合图像补丁生成细粒度的补丁 - 文本对数据，同时保留补丁和文本之间的对应关系。然后，该模型被训练以最小化混合图像的分割损失和原始和恢复特征的两个对比损失。作为掩码学习器，MixReorg 可以使传统的文本监督语义分割模型具有高度可概括的像素 - 语义对齐能力，这对于开放世界分割至关重要。在使用大规模的图像 - 文本数据训练后，MixReorg 模型可以直接应用于分割任意类别的视觉对象，无需进一步的微调。我们提出的框架在流行的零样本语义分割基准上展示出强大的性能，在 PASCAL VOC2012、PASCAL Context、MS COCO 和 ADE20K 上的 mIoU 分别优于 GroupViT 的 5.0%、6.2%、2.5% 和 3.4%。

Aug, 2023

PolyMaX：基于 Mask Transformer 的通用密集预测

通过泛化基于簇预测的方法，将密集预测任务与掩膜变换器框架统一，我们提出的模型 PolyMaX 在 NYUD-v2 数据集的三个基准测试中展现了最先进的性能。

Nov, 2023

多模态掩码预训练用于单目全景深度补全

本文提出了一种称为 M {^3} PT 的简单而有效的方法，用于 360 度深度图像补全，使用 multi-modal masked pre-training 实现，从而在三个 360 度数据集上取得了显著的改进。

Mar, 2022