基于视觉基础模型的无标注语义分割

Mar, 2024

基于视觉基础模型的无标注语义分割

Annotation Free Semantic Segmentation with Vision Foundation Models

Soroush Seifi, Daniel Olmeda Reino, Fabien Despinoy, Rahaf Aljundi

TL;DR我们构建了一个轻量级模块，基于自监督预训练的视觉编码器与预训练文本编码器对齐图像特征，利用现有的基础模型生成语义分割数据集的免费注释，并使用这个模块为任何预训练视觉编码器带来基于语言的语义，只需少量无注释训练数据，表现出令人印象深刻的泛化能力。

Abstract

semantic segmentation is one of the most challenging vision tasks, usually requiring large amounts of training data with expensive pixel-level annotations. With the success of foundation models and especially vision-lan

semantic segmentation zero-shot self-supervised vision-language models object detection

发现论文，激发创造

医学影像分割：从传统模型到基础模型的超越像素级监督

医学图像分割的注释高效学习与基础模型的挑战：综述与分析。

Apr, 2024

FM-Fusion: 基于视觉 - 语言基础模型的实例感知语义映射增强

基于视觉 - 语言基础模型，本研究提出了一种概率标签融合方法，用于从开放集标签测量中预测闭合集语义类别，以增强基于实例感知的语义映射；通过整合各模块构建一个统一的语义映射系统，并通过 ScanNet 和 SceneNN 数据集评估了方法的零样本性能，取得了显著优于传统方法的 40.3 均值平均精度（mAP）的结果。

Feb, 2024

利用大规模预训练视觉基础模型进行高效标签的 3D 点云分割

通过采用大规模预训练模型、计算机视觉和 2D 任务，本研究提出了一种新的框架来解决 3D 点云分割任务，通过将 2D 语义分割预测投影到 3D 空间，并引入语义标签融合策略，实现了在扩展的数据集上的 3D 场景理解。

Nov, 2023

基于基础模型时代的少样本语义分割新基准

在计算机视觉中，我们比较了四种著名的视觉基础模型（DINO V2，Segment Anything，CLIP，Masked AutoEncoders 和在 COCO 数据集上预训练的 ResNet50），发现 DINO V2 在各种数据集和适应方法上始终优于其他模型，突出了其在语义分割任务上的优越适应能力。此外，我们观察到各种适配器方法表现相似，强调了选择稳健特征提取器比适应技术本身的复杂性更为重要，这一发现揭示了在少样本语义分割情境中特征提取的关键作用。此研究不仅为少样本语义分割领域的视觉基础模型的比较性能提供宝贵见解，还强调了稳健特征提取器在该领域的重要性。

Jan, 2024

探索无人类标签的开放词汇语义分割

该论文介绍了一种使用预训练的图像 - 语言模型进行零样本学习的语义分割方法，将预训练模型中的视觉概念知识转化为分割区域的语义信息表示（即 segment tokens）并应用于视觉语义分割任务中。实验结果表明，该方法在多个公共基准数据集上可以达到与有监督训练方法相竞争的效果。

Jun, 2023

基于基础模型辅助的弱监督语义分割

这项研究旨在利用预训练的基础模型，如对比语言图像预训练（CLIP）和分段任意模型（SAM），利用图像级别标签解决弱监督语义分割（WSSS）。为此，我们提出了基于 CLIP 和 SAM 的粗到精细的框架，用于生成高质量的分割种子。我们通过冻结权重的 CLIP 和两组可学习的任务特定提示共同执行图像分类任务和种子分割任务。我们设计了一个基于 SAM 的分区（SAMS）模块，并将其应用于每个任务以生成粗糙或精细的种子图。此外，我们设计了一个多标签对比损失，由图像级别标签监督，和一个由生成的粗糙种子图监督的 CAM 激活损失。这些损失用于学习提示，在我们的框架中，提示是唯一需要学习的部分。一旦学习了提示，我们将每个图像以及学习的分割特定提示输入到 CLIP 和 SAMS 模块中，以生成高质量的分割种子。这些种子用作伪标签，用于训练一种现成的分割网络，就像其他两阶段的 WSSS 方法一样。实验证明，我们的方法在 PASCAL VOC 2012 上取得了最先进的性能，并在 MS COCO 2014 上获得了有竞争力的结果。

Dec, 2023

用于超声应用的零样本基本模型的语义分割精化器

通过使用粗糙语义分割掩模作为输入以及零 - shot 可提示的基础模型作为优化目标，我们提出了一种不需要提示的分割方法来解决低数据环境下分割模型的性能下降问题，并在肌肉骨骼超声图像数据集上进行了实验证明我们方法的优势，在不同程度的低数据环境下，随着训练集大小的减小，取得了更大的性能提升。

Apr, 2024

多模式基础模型增强弱监督语义分割：一种端到端方法

使用弱监督语义分割方法解决数据标注成本高的问题，通过借鉴视觉基础模型来学习对象边界从而提高分割结果的质量。

May, 2024

无需指导的开放词汇语义分割

TAG 是一种新颖的方法，用于在计算机视觉中进行无需训练、注释和指导的开放词汇语义分割，通过利用预训练模型以及来自外部数据库的类别标签检索，达到了在 PascalVOC、PascalContext 和 ADE20K 数据集上的开放词汇分割的最新成果。

Mar, 2024

通过视觉基础模型实现无标签场景理解

该研究调查了使用视觉基础模型实现二维和三维场景理解的潜力，并提出了一个新的跨模式噪声监督方法，利用 CLIP 和 SAM 模型的优势共同训练二维和三维网络，实现了在不需要标记数据的情况下进行图像语义分割。

Jun, 2023