如何为语义分割基础模型进行基准测试?
本文通过性能评估研究了在分割任务中对真实世界分布偏移抗干扰能力的不同模型,发现 Visual Foundation Models(VFMs) 对基于压缩的破坏不具备鲁棒性,而非 VFM 模型在监督下表现更加强健,但在零样本评估中仍然竞争性鲁棒,VFMs 则在特定类别的对象上表现出更高的韧性。
Jun, 2023
在计算机视觉中,我们比较了四种著名的视觉基础模型(DINO V2,Segment Anything,CLIP,Masked AutoEncoders 和在 COCO 数据集上预训练的 ResNet50),发现 DINO V2 在各种数据集和适应方法上始终优于其他模型,突出了其在语义分割任务上的优越适应能力。此外,我们观察到各种适配器方法表现相似,强调了选择稳健特征提取器比适应技术本身的复杂性更为重要,这一发现揭示了在少样本语义分割情境中特征提取的关键作用。此研究不仅为少样本语义分割领域的视觉基础模型的比较性能提供宝贵见解,还强调了稳健特征提取器在该领域的重要性。
Jan, 2024
我们构建了一个轻量级模块,基于自监督预训练的视觉编码器与预训练文本编码器对齐图像特征,利用现有的基础模型生成语义分割数据集的免费注释,并使用这个模块为任何预训练视觉编码器带来基于语言的语义,只需少量无注释训练数据,表现出令人印象深刻的泛化能力。
Mar, 2024
利用大型视觉基础模型(VFMs)通过在庞大数据集上预训练,以及在有限标记的目标数据下展现出优异性能的情况下,提出了一种简单高效的面向任务的知识迁移方法,用于对小型任务特定模型进行有效训练。实验结果表明,该方法在有限标记数据的情况下,在四个目标任务上的性能优于面向任务无关的 VFM 蒸馏、Web 规模 CLIP 预训练和监督式 ImageNet 预训练,分别提升了 1-10.5%、2-22% 和 2-14%。研究还指出了用于知识迁移的数据集对最终目标任务性能的显著影响,并提出了基于图像检索的方法来筛选有效的迁移集。
Nov, 2023
基于视觉 - 语言基础模型,本研究提出了一种概率标签融合方法,用于从开放集标签测量中预测闭合集语义类别,以增强基于实例感知的语义映射;通过整合各模块构建一个统一的语义映射系统,并通过 ScanNet 和 SceneNN 数据集评估了方法的零样本性能,取得了显著优于传统方法的 40.3 均值平均精度(mAP)的结果。
Feb, 2024
该研究中,我们首先评估和利用各种视觉基础模型(Vision Foundation Models)在域泛化语义分割(Domain Generalized Semantic Segmentation)中的应用。我们引入了一种名为 Rein 的强大微调方法,通过利用更强的预训练模型和更少的可训练参数来提高模型的泛化能力。实验证明,Rein 在各种设置下明显优于现有方法,并在 Cityscapes 数据集上获得了令人惊讶的 68.1% 的 mIoU,而仅使用了额外 1% 的可训练参数。
Dec, 2023
自本文中,我们对各种自监督视觉变换器(ViTs)进行了比较分析,重点研究了它们的局部代表能力。我们设计了一个评估框架,分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现,基于对比学习的方法如 DINO 产生了更通用的局部表示,可以立即应用于无参数调整的下游任务,而掩蔽图像建模的方法中学习的嵌入具有高方差特征,对于大多数下游任务没有有用信息。此外,通过对本工作的基准和 Scale-MAE 的分析,我们证明了移除这些高方差特征对 k-NN 算法的改进。最后,我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。
Dec, 2023
视觉语言模型(VLM)在各种下游任务中展现出了卓越的性能,但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像,并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试 SPEC。令人惊讶的是,四个领先的 VLM 在 SPEC 上的表现接近随机猜测,揭示了重大局限性。鉴于此,我们提出了一种简单而有效的方法来优化 VLM 在细粒度理解上的性能,在不影响零样本性能的情况下,显著改善了 SPEC 的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性,并进一步验证了我们的方法。
Nov, 2023