Aug, 2023

MixReorg:跨模态混合 Patch 重组是开放世界语义分割的良好掩膜学习器

TL;DR最近,在具有图像级文本监督训练的语义分割模型中,在具有挑战性的开放世界场景中展示出了有希望的结果。然而,这些模型仍然面临在像素级学习细粒度语义对齐和预测准确的对象掩码方面的困难。为了解决这个问题,我们提出了 MixReorg,这是一种用于语义分割的新颖而直接的预训练范例,它增强了模型在重新组织混合在图像中的补丁时的能力,探索局部视觉相关性和全局语义连贯性。我们的方法涉及通过混合图像补丁生成细粒度的补丁 - 文本对数据,同时保留补丁和文本之间的对应关系。然后,该模型被训练以最小化混合图像的分割损失和原始和恢复特征的两个对比损失。作为掩码学习器,MixReorg 可以使传统的文本监督语义分割模型具有高度可概括的像素 - 语义对齐能力,这对于开放世界分割至关重要。在使用大规模的图像 - 文本数据训练后,MixReorg 模型可以直接应用于分割任意类别的视觉对象,无需进一步的微调。我们提出的框架在流行的零样本语义分割基准上展示出强大的性能,在 PASCAL VOC2012、PASCAL Context、MS COCO 和 ADE20K 上的 mIoU 分别优于 GroupViT 的 5.0%、6.2%、2.5% 和 3.4%。