基于基础模型时代的少样本语义分割新基准

Jan, 2024

基于基础模型时代的少样本语义分割新基准

A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models

Reda Bensaid, Vincent Gripon, François Leduc-Primeau, Lukas Mauch, Ghouthi Boukli Hacene...

TL;DR在计算机视觉中，我们比较了四种著名的视觉基础模型（DINO V2，Segment Anything，CLIP，Masked AutoEncoders 和在 COCO 数据集上预训练的 ResNet50），发现 DINO V2 在各种数据集和适应方法上始终优于其他模型，突出了其在语义分割任务上的优越适应能力。此外，我们观察到各种适配器方法表现相似，强调了选择稳健特征提取器比适应技术本身的复杂性更为重要，这一发现揭示了在少样本语义分割情境中特征提取的关键作用。此研究不仅为少样本语义分割领域的视觉基础模型的比较性能提供宝贵见解，还强调了稳健特征提取器在该领域的重要性。

Abstract

In recent years, the rapid evolution of computer vision has seen the emergence of various vision foundation models, each tailored to specific data types and tasks. While large language models often share a common

computer vision vision foundation models few-shot semantic segmentation dino v2 adaptation methods

发现论文，激发创造

关于医学图像分析的通用视觉基础模型：基于 DINOv2 的放射学基准实验研究

本研究全面评估了基于自学习的 DINOv2 模型在放射学领域的应用，通过超过 100 个实验在不同模态下进行疾病分类和器官分割等任务，发现 DINOv2 在分割任务中表现优越，在疾病分类中具有竞争力的结果。这些发现为优化医学影像的预训练策略和加强 DINOv2 在自然图像与放射图像分析之间的桥梁作用提供了深入的见解。

Dec, 2023

基于基础模型的少样本全景分割

借助任务不可知的图像特征，我们提出了 SPINO 方法，该方法可以通过仅使用十个带注释的图像来预测高质量的伪标签，从而实现少样本全景分割，同时为基于基础模型的学习复杂视觉识别任务铺平了道路。

Sep, 2023

基于视觉基础模型的无标注语义分割

我们构建了一个轻量级模块，基于自监督预训练的视觉编码器与预训练文本编码器对齐图像特征，利用现有的基础模型生成语义分割数据集的免费注释，并使用这个模块为任何预训练视觉编码器带来基于语言的语义，只需少量无注释训练数据，表现出令人印象深刻的泛化能力。

Mar, 2024

基于基础模型的医学图像一次性定位和分割

通过测试在自然图像上训练的各种预训练的视觉 Transformer 和稳定扩散模型，本研究证明它们在医学图像的对应问题和语义分割任务上能够取得良好的性能。

Oct, 2023

利用大规模预训练视觉基础模型进行高效标签的 3D 点云分割

通过采用大规模预训练模型、计算机视觉和 2D 任务，本研究提出了一种新的框架来解决 3D 点云分割任务，通过将 2D 语义分割预测投影到 3D 空间，并引入语义标签融合策略，实现了在扩展的数据集上的 3D 场景理解。

Nov, 2023

自然领域基础模型在医学图像分类中是否有用？

通过对五种先进的基础模型（SAM、SEEM、DINOv2、BLIP 和 OpenCLIP）在医学图像分类任务中的可转移性进行评估，我们的研究显示了混合的结果。尽管 DINOv2 在不断超越 ImageNet 预训练的标准实践方面表现出色，但其他基础模型未能始终超越此已建立的基线，这表明它们在医学图像分类任务中的可转移性存在限制。

Oct, 2023

基于基础模型的 3D 开放词汇分割

本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数，本研究在无需进行微调的情况下，以开放式视觉和文本知识为先验知识，从 2D 特征中提取出 3D 分割特征。通过实验验证，本研究所提出的方法在无需分割注释的情况下，甚至优于完全监督的分割模型训练，表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。

May, 2023

NamedMask: 从补充基础模型中提取分割模型

本文提出 NamedMask 方法，采用 CLIP 和 DINO 两个模型相辅相成的特点，构建一种用于图像分割的模型，实现根据类别对图像进行语义分割，并在 VOC2012、COCO 和 ImageNet-S 等数据集上实验，取得了令人瞩目的结果。

Sep, 2022

基础分割模型的稳健性分析

本文通过性能评估研究了在分割任务中对真实世界分布偏移抗干扰能力的不同模型，发现 Visual Foundation Models（VFMs）对基于压缩的破坏不具备鲁棒性，而非 VFM 模型在监督下表现更加强健，但在零样本评估中仍然竞争性鲁棒，VFMs 则在特定类别的对象上表现出更高的韧性。

Jun, 2023

AnomalyDINO：使用 DINOv2 提升基于补丁的少样本异常检测

本文探讨了高质量的可视特征是否足以与现有的最先进的视觉语言模型竞争，并通过将 DINOv2 适应于一次性和少量次数的异常检测来证实这一点，重点放在工业应用上。我们表明这种方法不仅能与现有技术竞争，而且在许多情况下甚至能胜过它们。我们提出的仅视觉方法 AnomalyDINO 基于补丁相似性，能够实现图像级别的异常预测和像素级的异常分割。该方法在方法论上简单且无需训练，因此无需额外的数据进行微调或元学习。尽管简单，但 AnomalyDINO 在一次性和少量次数的异常检测方面取得了最先进的成果（例如，将 MVTec-AD 上的一次性性能从 93.1％的 AUROC 提升至 96.6％）。降低的开销以及出色的少量次数性能使 AnomalyDINO 成为快速部署的有力候选，例如在工业环境中。

May, 2024