重访视觉基础模型时代的主动学习
通过在活动学习(AL)框架内应用参数高效微调方法对极限预算限制的分类任务中的采样选择过程进行研究,本研究展示了基础视觉转换模型在图像数据集上表现出色的少样本性能,并突出显示了将参数高效微调方法与基础模型相结合的战略优势,从而改进了这些具有挑战性的数据集上的活动学习性能,为优化 AL 策略做出了贡献,并为在专业领域高效和有效地进行数据注释提供了有前景的研究方向。
Jun, 2024
在具有有限训练数据并在分布转变下无法有效推广的情况下,传统的迁移学习方法效果有限。然而,最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题,在此提出了一种适用于流行的视觉 - 语言基础模型 CLIP 的小样本微调方法,并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明,在训练数据供应的各个级别上,与只有视觉的模型相比,少样本 CLIP 微调在内部分布准确性和外部分布准确性方面表现更好,这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。
Nov, 2023
通过对五种先进的基础模型(SAM、SEEM、DINOv2、BLIP 和 OpenCLIP)在医学图像分类任务中的可转移性进行评估,我们的研究显示了混合的结果。尽管 DINOv2 在不断超越 ImageNet 预训练的标准实践方面表现出色,但其他基础模型未能始终超越此已建立的基线,这表明它们在医学图像分类任务中的可转移性存在限制。
Oct, 2023
本研究通过攻击深度特征表示来操纵开放世界感知模型,以解决封闭集下游任务,并在白盒、黑盒和模型类型迁移的情况下展示攻击的有效性,旨在识别这些模型的关键敌对弱点,以提高未来设计的鲁棒性。
Aug, 2023
在计算机视觉中,我们比较了四种著名的视觉基础模型(DINO V2,Segment Anything,CLIP,Masked AutoEncoders 和在 COCO 数据集上预训练的 ResNet50),发现 DINO V2 在各种数据集和适应方法上始终优于其他模型,突出了其在语义分割任务上的优越适应能力。此外,我们观察到各种适配器方法表现相似,强调了选择稳健特征提取器比适应技术本身的复杂性更为重要,这一发现揭示了在少样本语义分割情境中特征提取的关键作用。此研究不仅为少样本语义分割领域的视觉基础模型的比较性能提供宝贵见解,还强调了稳健特征提取器在该领域的重要性。
Jan, 2024
该研究综述介绍了基础模型在自动驾驶中的应用,探讨了其在规划、仿真、三维物体检测以及多模态模型方面的作用,并提供了基于模态和功能对基础模型的分类,同时指出了现有模型与创新自动驾驶方法之间的差距,并提出了填补这些差距的未来研究方向和路线图。
Feb, 2024
介绍了一种单次打开机会学习(OOAL)方法,通过仅使用基本目标类别的一个示例进行训练,但可以识别新的对象和作用条件。实验表明,该方法在两个作用条件分割基准测试中胜过了现有模型,仅使用不到全量训练数据的 1%,并展现了对未知对象和作用条件的合理泛化能力。
Nov, 2023
本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数,本研究在无需进行微调的情况下,以开放式视觉和文本知识为先验知识,从 2D 特征中提取出 3D 分割特征。通过实验验证,本研究所提出的方法在无需分割注释的情况下,甚至优于完全监督的分割模型训练,表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。
May, 2023