如何为语义分割基础模型进行基准测试？

CVPRApr, 2024

如何为语义分割基础模型进行基准测试？

How to Benchmark Vision Foundation Models for Semantic Segmentation?

Tommie Kerssies, Daan de Geus, Gijs Dubbelman

TL;DR最近的视觉基础模型在各种任务中展示了高效性，但需要有监督的精调才能有效地执行语义分割任务。本文的主要目标是研究如何对视觉基础模型进行语义分割的基准测试，通过在不同设置下对各种模型进行细调并评估各个设置对性能和训练时间的影响，提出了建议的基准测试设置，以评估视觉基础模型的性能。

Abstract

Recent vision foundation models (VFMs) have demonstrated proficiency in various tasks but require supervised fine-tuning to perform the task of s

vision foundation models semantic segmentation benchmarking fine-tuning vit-b variants

发现论文，激发创造

基础分割模型的稳健性分析

本文通过性能评估研究了在分割任务中对真实世界分布偏移抗干扰能力的不同模型，发现 Visual Foundation Models（VFMs）对基于压缩的破坏不具备鲁棒性，而非 VFM 模型在监督下表现更加强健，但在零样本评估中仍然竞争性鲁棒，VFMs 则在特定类别的对象上表现出更高的韧性。

Jun, 2023

基于基础模型时代的少样本语义分割新基准

在计算机视觉中，我们比较了四种著名的视觉基础模型（DINO V2，Segment Anything，CLIP，Masked AutoEncoders 和在 COCO 数据集上预训练的 ResNet50），发现 DINO V2 在各种数据集和适应方法上始终优于其他模型，突出了其在语义分割任务上的优越适应能力。此外，我们观察到各种适配器方法表现相似，强调了选择稳健特征提取器比适应技术本身的复杂性更为重要，这一发现揭示了在少样本语义分割情境中特征提取的关键作用。此研究不仅为少样本语义分割领域的视觉基础模型的比较性能提供宝贵见解，还强调了稳健特征提取器在该领域的重要性。

Jan, 2024

基于视觉基础模型的无标注语义分割

我们构建了一个轻量级模块，基于自监督预训练的视觉编码器与预训练文本编码器对齐图像特征，利用现有的基础模型生成语义分割数据集的免费注释，并使用这个模块为任何预训练视觉编码器带来基于语言的语义，只需少量无注释训练数据，表现出令人印象深刻的泛化能力。

Mar, 2024

利用视觉基础模型，高效训练小型任务专用模型

利用大型视觉基础模型（VFMs）通过在庞大数据集上预训练，以及在有限标记的目标数据下展现出优异性能的情况下，提出了一种简单高效的面向任务的知识迁移方法，用于对小型任务特定模型进行有效训练。实验结果表明，该方法在有限标记数据的情况下，在四个目标任务上的性能优于面向任务无关的 VFM 蒸馏、Web 规模 CLIP 预训练和监督式 ImageNet 预训练，分别提升了 1-10.5%、2-22% 和 2-14%。研究还指出了用于知识迁移的数据集对最终目标任务性能的显著影响，并提出了基于图像检索的方法来筛选有效的迁移集。

Nov, 2023

使用视觉 Transformer 进行语义分割：一项调查

调查了不同的 ViT 架构用于语义分割的性能和使用基准数据集对其进行比较。

May, 2023

FM-Fusion: 基于视觉 - 语言基础模型的实例感知语义映射增强

基于视觉 - 语言基础模型，本研究提出了一种概率标签融合方法，用于从开放集标签测量中预测闭合集语义类别，以增强基于实例感知的语义映射；通过整合各模块构建一个统一的语义映射系统，并通过 ScanNet 和 SceneNN 数据集评估了方法的零样本性能，取得了显著优于传统方法的 40.3 均值平均精度（mAP）的结果。

Feb, 2024

精细视觉语言理解进展的衡量

本文通过对四个具有挑战性的细粒度基准进行实验研究，发现 X-VLM 是最好的模型，同时强调新的损失函数和丰富的数据源对于学习细粒度技能非常重要。

May, 2023

更强，更少，更优：利用视觉基础模型进行领域通用语义分割

该研究中，我们首先评估和利用各种视觉基础模型（Vision Foundation Models）在域泛化语义分割（Domain Generalized Semantic Segmentation）中的应用。我们引入了一种名为 Rein 的强大微调方法，通过利用更强的预训练模型和更少的可训练参数来提高模型的泛化能力。实验证明，Rein 在各种设置下明显优于现有方法，并在 Cityscapes 数据集上获得了令人惊讶的 68.1% 的 mIoU，而仅使用了额外 1% 的可训练参数。

Dec, 2023

分析自监督视觉变压器的局部表征

自本文中，我们对各种自监督视觉变换器（ViTs）进行了比较分析，重点研究了它们的局部代表能力。我们设计了一个评估框架，分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现，基于对比学习的方法如 DINO 产生了更通用的局部表示，可以立即应用于无参数调整的下游任务，而掩蔽图像建模的方法中学习的嵌入具有高方差特征，对于大多数下游任务没有有用信息。此外，通过对本工作的基准和 Scale-MAE 的分析，我们证明了移除这些高方差特征对 k-NN 算法的改进。最后，我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。

Dec, 2023

综合、诊断和优化：朝着细粒度的视觉 - 语言理解方向

视觉语言模型（VLM）在各种下游任务中展现出了卓越的性能，但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像，并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试 SPEC。令人惊讶的是，四个领先的 VLM 在 SPEC 上的表现接近随机猜测，揭示了重大局限性。鉴于此，我们提出了一种简单而有效的方法来优化 VLM 在细粒度理解上的性能，在不影响零样本性能的情况下，显著改善了 SPEC 的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性，并进一步验证了我们的方法。

Nov, 2023