MixReorg：跨模态混合 Patch 重组是开放世界语义分割的良好掩膜学习器

Aug, 2023

MixReorg：跨模态混合 Patch 重组是开放世界语义分割的良好掩膜学习器

MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation

Kaixin Cai, Pengzhen Ren, Yi Zhu, Hang Xu, Jianzhuang Liu...

TL;DR最近，在具有图像级文本监督训练的语义分割模型中，在具有挑战性的开放世界场景中展示出了有希望的结果。然而，这些模型仍然面临在像素级学习细粒度语义对齐和预测准确的对象掩码方面的困难。为了解决这个问题，我们提出了 MixReorg，这是一种用于语义分割的新颖而直接的预训练范例，它增强了模型在重新组织混合在图像中的补丁时的能力，探索局部视觉相关性和全局语义连贯性。我们的方法涉及通过混合图像补丁生成细粒度的补丁 - 文本对数据，同时保留补丁和文本之间的对应关系。然后，该模型被训练以最小化混合图像的分割损失和原始和恢复特征的两个对比损失。作为掩码学习器，MixReorg 可以使传统的文本监督语义分割模型具有高度可概括的像素 - 语义对齐能力，这对于开放世界分割至关重要。在使用大规模的图像 - 文本数据训练后，MixReorg 模型可以直接应用于分割任意类别的视觉对象，无需进一步的微调。我们提出的框架在流行的零样本语义分割基准上展示出强大的性能，在 PASCAL VOC2012、PASCAL Context、MS COCO 和 ADE20K 上的 mIoU 分别优于 GroupViT 的 5.0%、6.2%、2.5% 和 3.4%。

Abstract

Recently, semantic segmentation models trained with image-level text supervision have shown promising results in challenging open-world scenarios. However, these models still face difficulties in learning fine-grained semantic alignment at the pixel level and predicting accurate object

semantic segmentation mixreorg pre-training pixel-semantic alignment zero-shot semantic segmentation

发现论文，激发创造

稳健的跨模态伪标记开放词汇实例分割

本文提出一种跨模态伪标签（cross-modal pseudo-labeling）框架，用于面向开放词汇的实例分割，通过与对象掩膜的视觉特征对齐，实现对字词语义中的新类别进行标记，从而自我训练出一个学生模型，缓解了伪掩膜中存在的噪声干扰所带来的不良影响，相比现有工作，在 MS-COCO 和 Open Images & Conceptual Captions 数据集上分别实现了 4.5% 和 5.1% 的 mAP 得分提高。

Nov, 2021

基于多粒度跨模态对齐的开放词汇语义分割学习

提出了一种多粒度跨模态对齐 (MGCA) 框架，通过在像素级、对象级和区域级学习对齐来解决现有方法在像素级预测和训练时的粒度差异问题，并采用硬采样策略促进精细的跨模态对比学习，进一步开发自适应语义单元来改善像素预测单元在下游分割中的缺陷。在 CC3M 数据集上进行训练后，该方法在性能上显著超过了现有的方法，验证了其有效性和高效性。

Mar, 2024

可见光 - 红外人物重新识别的补丁混合交叉模态学习

本文提出了 Patch-Mixed Cross-Modality framework (PMCM) 框架，该框架通过图片分割并拼接，实现了不同模态下人员识别过程中的语义对应，同时在视觉可见光和红外人员重识别任务中取得了最佳表现。

Feb, 2023

具有局部掩码重建的高效自监督视觉预训练

本研究提出一种名为 LoMaR 的局部掩码重建的学习机制，该方法与生成式自监督视觉学习方法（如 MAE 和 BEiT）相比，可以更加高效地在简单的转换器编码器上进行掩码重建，同时也更具准确性，可轻松集成到其他生成式自监督学习方法中。

Jun, 2022

语言导向的医学图像分割的跨模态条件重构

提出一种新的跨模态条件重构来从事以语言指导的医学图像分割，并通过实验证明了其在不同数据集上的优越性能

Apr, 2024

仅基于图像 - 文本对学习生成文本导向掩膜，用于开放世界语义分割

本文提出了一种名为 Text-grounded Contrastive Learning 的框架，用于解决利用图像 - 文本对进行开放式语义分割任务存在的图像 - 文本不一致问题，并在八个经典的语义分割数据集上达到了最先进的零样本分割表现。

Dec, 2022

跨模态医学图像 - 报告检索的掩码对比重建

提出了一种名为蒙版对比与重建（MCR）的高效 VLP 框架，以蒙版数据作为两个任务的唯一输入，增强任务之间的连接，并显著减少所需的 GPU 内存和训练时间。通过映射不同的模态到一个公共特征空间，然后进行局部特征聚合，减少细粒度语义信息的损失，从而降低了 fine-grained 的模态对齐所需要的 gpu 内存和时间。在 MIMIC-CXR 数据集上进行的定性和定量实验验证了该方法的有效性，并展示了在医学跨模态检索任务中的最先进性能。

Dec, 2023

ReMaX: 针对高效全景分割的放松优化训练

本文提出一种 ReMaX 的新机制，通过在学习时添加对分割蒙版和类别蒙版的松弛约束，可以实现更高效的全景分割，使其更易于部署，同时可以与 MobileNetV3-Small 等高效 backbones 结合使用，从而在 COCO、ADE20K 和 Cityscapes 等数据集上取得最新的最新的最好成果。

Jun, 2023

Mx2M: 三维语义分割领域自适应中的跨模态建模

现有的跨模态域自适应方法在三维语义分割中仅通过跨模态特征匹配预测结果的 2D-3D 补充性，然而，在目标领域缺乏监督的情况下，这种补充性并不总是可靠的。我们为解决缺乏监督的问题，将蒙版建模引入该任务，并提出了一种名为 Mx2M 的方法，该方法利用蒙版的跨模态建模来减小域间差距。我们的 Mx2M 包含两个组成部分。一个是核心解决方案，即跨模态去除和预测（xMRP），它使得 Mx2M 适应各种情景并提供跨模态自监督。另一个是一种新的跨模态特征匹配方式，即动态跨模态滤波器（DxMF），它确保整个方法动态地使用更合适的 2D-3D 补充性。在包括白天 / 夜晚、美国 / 新加坡和 A2D2/SemanticKITTI 在内的三个跨模态自适应场景上，对 Mx2M 的评估在许多指标上取得了显著的改进。

Jul, 2023

探索简化开放词汇语义分割

通过 S-Seg 模型，我们可以实现准确的像素级别标签分配，无需依赖于图像级别的 VL 模型、地面实况掩码和自定义分组编码器，并且可以在多个测试数据集上进行良好的泛化而无需进行微调。

Jan, 2024