ReMaX: 针对高效全景分割的放松优化训练
紧集分割的最新技术 MaX-DeepLab 使用全新的端对端方法,通过双向 CNN 信道和双倍展开使大规模各类实例的分割更准确。
Dec, 2020
本文研究了 transformers 在图像识别中的应用,提出了一种基于聚类的 k-means Mask Xformer (kMaX-DeepLab) 模型,在多项数据集上均取得了新的最佳表现,为以后的视觉任务中 transformers 的设计提供了参考。
Jul, 2022
该研究论文提出了一种名为 MaskConver 的新型全景分割架构,通过预测物体和背景的中心来实现事物和物质的完全统一表示。通过引入 ConvNeXt-UNet 解码器,该模型在 COOC 全景验证集上相比基于卷积和 transformer 的模型以及现代基于卷积的模型和 transformer-based models 取得了更好的性能,此外,优化后的 MaskConver 在移动设备上实时运行,并在相同 FLOPs / 延迟限制下提高了 6.4% 的 PQ 值。
Dec, 2023
本研究提出一种名为 LoMaR 的局部掩码重建的学习机制,该方法与生成式自监督视觉学习方法(如 MAE 和 BEiT)相比,可以更加高效地在简单的转换器编码器上进行掩码重建,同时也更具准确性,可轻松集成到其他生成式自监督学习方法中。
Jun, 2022
本文提出了一种基于密集检测和全局自注意力机制的新型单次全景分割网络,该网络采用参数自由的掩码构建方法,大大降低了计算复杂度,实现了高效的实时性能,并在 Cityscapes 和 COCO 基准测试上取得了很好的效果。
Dec, 2019
我们提出了一种端到端的网络,用于连接全景分割的训练和推理管道,通过使用密集实例亲和力来捕获像素对属于相同实例的概率,并与 ResNet-50 骨干网络配合使用,实现了对 Cityscapes 和 COCO 数据集的新记录。
Jan, 2020
最近基于 Transformer 的架构在图像分割领域取得了令人印象深刻的成果。为了填补传统架构在计算资源上的限制,本文提出了一种高效的基于原型的 Transformer 架构 (PEM),它利用视觉特征的冗余性来限制计算并提高效率,同时引入了高效的多尺度特征金字塔网络,能够高效地提取具有高语义内容的特征。在两个不同的数据集上对 PEM 架构进行了测试和评估,表现出色,优于特定任务的架构,并且与计算代价较高的基准模型相媲美甚至更优。
Feb, 2024
最近,在具有图像级文本监督训练的语义分割模型中,在具有挑战性的开放世界场景中展示出了有希望的结果。然而,这些模型仍然面临在像素级学习细粒度语义对齐和预测准确的对象掩码方面的困难。为了解决这个问题,我们提出了 MixReorg,这是一种用于语义分割的新颖而直接的预训练范例,它增强了模型在重新组织混合在图像中的补丁时的能力,探索局部视觉相关性和全局语义连贯性。我们的方法涉及通过混合图像补丁生成细粒度的补丁 - 文本对数据,同时保留补丁和文本之间的对应关系。然后,该模型被训练以最小化混合图像的分割损失和原始和恢复特征的两个对比损失。作为掩码学习器,MixReorg 可以使传统的文本监督语义分割模型具有高度可概括的像素 - 语义对齐能力,这对于开放世界分割至关重要。在使用大规模的图像 - 文本数据训练后,MixReorg 模型可以直接应用于分割任意类别的视觉对象,无需进一步的微调。我们提出的框架在流行的零样本语义分割基准上展示出强大的性能,在 PASCAL VOC2012、PASCAL Context、MS COCO 和 ADE20K 上的 mIoU 分别优于 GroupViT 的 5.0%、6.2%、2.5% 和 3.4%。
Aug, 2023
通过泛化基于簇预测的方法,将密集预测任务与掩膜变换器框架统一,我们提出的模型 PolyMaX 在 NYUD-v2 数据集的三个基准测试中展现了最先进的性能。
Nov, 2023
本文提出了一种称为 M {^3} PT 的简单而有效的方法,用于 360 度深度图像补全,使用 multi-modal masked pre-training 实现,从而在三个 360 度数据集上取得了显著的改进。
Mar, 2022