重访视觉基础模型时代的主动学习

Jan, 2024

重访视觉基础模型时代的主动学习

Revisiting Active Learning in the Era of Vision Foundation Models

Sanket Rajan Gupte, Josiah Aklilu, Jeffrey J. Nirschl, Serena Yeung-Levy

TL;DR基于基础模型的主动学习策略通过利用稳定的表示形式，平衡不确定性估计和样本多样性，在标签效率方面取得了令人印象深刻的成果。

Abstract

Foundation vision or vision-language models are trained on large unlabeled or noisy data and learn robust representations that can achieve impressive zero- or few-shot performance on diverse tasks. Given these properties, they are a natural fit for →

foundation models active learning labeling efficiency robust representations uncertainty sampling

发现论文，激发创造

基础模型的参数高效主动学习

通过在活动学习（AL）框架内应用参数高效微调方法对极限预算限制的分类任务中的采样选择过程进行研究，本研究展示了基础视觉转换模型在图像数据集上表现出色的少样本性能，并突出显示了将参数高效微调方法与基础模型相结合的战略优势，从而改进了这些具有挑战性的数据集上的活动学习性能，为优化 AL 策略做出了贡献，并为在专业领域高效和有效地进行数据注释提供了有前景的研究方向。

Jun, 2024

基础模型将聚类作为主动学习的更好初始化

本研究提出了将基础模型与聚类方法相结合，用于选择主动学习初始化样本，实验证明这种方法可以有效地定位信息丰富的初始样本，从而提高模型性能。

Feb, 2024

视觉语言模型的领域泛化鲁棒微调

在具有有限训练数据并在分布转变下无法有效推广的情况下，传统的迁移学习方法效果有限。然而，最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题，在此提出了一种适用于流行的视觉 - 语言基础模型 CLIP 的小样本微调方法，并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明，在训练数据供应的各个级别上，与只有视觉的模型相比，少样本 CLIP 微调在内部分布准确性和外部分布准确性方面表现更好，这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。

Nov, 2023

自然领域基础模型在医学图像分类中是否有用？

通过对五种先进的基础模型（SAM、SEEM、DINOv2、BLIP 和 OpenCLIP）在医学图像分类任务中的可转移性进行评估，我们的研究显示了混合的结果。尽管 DINOv2 在不断超越 ImageNet 预训练的标准实践方面表现出色，但其他基础模型未能始终超越此已建立的基线，这表明它们在医学图像分类任务中的可转移性存在限制。

Oct, 2023

定义视觉新时代的基础模型：调查与展望

视觉系统、基础模型、环境中的上下文推理、训练目标和计算机视觉的挑战和研究方向的综述。

Jul, 2023

对基础视觉模型的对抗性攻击

本研究通过攻击深度特征表示来操纵开放世界感知模型，以解决封闭集下游任务，并在白盒、黑盒和模型类型迁移的情况下展示攻击的有效性，旨在识别这些模型的关键敌对弱点，以提高未来设计的鲁棒性。

Aug, 2023

基于基础模型时代的少样本语义分割新基准

在计算机视觉中，我们比较了四种著名的视觉基础模型（DINO V2，Segment Anything，CLIP，Masked AutoEncoders 和在 COCO 数据集上预训练的 ResNet50），发现 DINO V2 在各种数据集和适应方法上始终优于其他模型，突出了其在语义分割任务上的优越适应能力。此外，我们观察到各种适配器方法表现相似，强调了选择稳健特征提取器比适应技术本身的复杂性更为重要，这一发现揭示了在少样本语义分割情境中特征提取的关键作用。此研究不仅为少样本语义分割领域的视觉基础模型的比较性能提供宝贵见解，还强调了稳健特征提取器在该领域的重要性。

Jan, 2024

自动驾驶中的基础模型调查

该研究综述介绍了基础模型在自动驾驶中的应用，探讨了其在规划、仿真、三维物体检测以及多模态模型方面的作用，并提供了基于模态和功能对基础模型的分类，同时指出了现有模型与创新自动驾驶方法之间的差距，并提出了填补这些差距的未来研究方向和路线图。

Feb, 2024

基于基础模型的一次打开可行性学习

介绍了一种单次打开机会学习（OOAL）方法，通过仅使用基本目标类别的一个示例进行训练，但可以识别新的对象和作用条件。实验表明，该方法在两个作用条件分割基准测试中胜过了现有模型，仅使用不到全量训练数据的 1％，并展现了对未知对象和作用条件的合理泛化能力。

Nov, 2023

基于基础模型的 3D 开放词汇分割

本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数，本研究在无需进行微调的情况下，以开放式视觉和文本知识为先验知识，从 2D 特征中提取出 3D 分割特征。通过实验验证，本研究所提出的方法在无需分割注释的情况下，甚至优于完全监督的分割模型训练，表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。

May, 2023