基于锚点的视觉语言模型的鲁棒微调
在具有有限训练数据并在分布转变下无法有效推广的情况下,传统的迁移学习方法效果有限。然而,最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题,在此提出了一种适用于流行的视觉 - 语言基础模型 CLIP 的小样本微调方法,并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明,在训练数据供应的各个级别上,与只有视觉的模型相比,少样本 CLIP 微调在内部分布准确性和外部分布准确性方面表现更好,这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。
Nov, 2023
在这项工作中,我们介绍了一种用于 CLIP 的样本高效领域适应策略,称为 Domain Aligned CLIP (DAC),它在不对主模型进行全量微调的情况下,改进了目标分布上的内部模态对齐和跨模态对齐。通过引入一个轻量级的适配器和一个简单的框架调节类文本嵌入,DAC 提供了一个计算效率高、抗分布转移性强且不改变 CLIP 参数的少样本微调框架,在 11 个广泛使用的图像分类任务中,以 2.3% 的提升应对 16 个样本分类挑战,并在 4 个鲁棒性基准上展现出竞争性能。
Nov, 2023
本文探讨了如何通过多模态概念匹配框架来评估诸如 CLIP 等最新视觉语言模型的 fine-tuning 方法对于少样本下游任务的超出分布检测性能的影响,并发现所选的 ODD 得分方法至关重要,MCM 得分方法表现最佳,prompt learning 在超出分布检测性能上表现最好。
Jun, 2023
在本论文中,我们首先展示了,经过足够时间的微调但没有适当的正则化,视觉 - 语言模型在给定数据集中往往会过度拟合已知类别,导致对未知类别的表现下降。然后,我们提出了一种新颖的方法 OGEN 来解决这个问题,在关注点主要是改进经过微调模型的未知类别(OOD)泛化能力。具体而言,我们引入了一种类条件特征生成器,通过仅使用任何未知类别的类名,合成 OOD 特征。这些合成特征将提供关于未知类别的有用知识,并在联合优化时有助于规范 ID 和 OOD 数据之间的决策边界。同样重要的是,我们的自适应自蒸馏机制用于规范特征生成模型,在联合优化期间自适应地传递模型状态之间的知识,以进一步防止过度拟合。实验证实,我们的方法在不同设置下提供了令人信服的 OOD 泛化性能增益。
Jan, 2024
针对使 CLIP 适应现实世界的挑战,我们提出了一种名为 Candle 的新框架,通过引入新的损失函数、跨模态注意力和虚拟原型来实现高效、长尾泛化,该方法在 11 个不同数据集上展示出了卓越的性能,并大大减少了训练时间。
Jun, 2024
使用 Contrastive Language-Image Pre-training (CLIP) 模型进行零样本异常检测,通过学习自然语言监督下的视觉表示,构建文本提示与全局图像级别表示之间的对应关系,采用训练自由的价值关注机制提取 CLIP 的内在局部标记以进行精确定位,设计一个统一的领域感知对比状态提示模板,通过测试时的自适应机制进一步优化异常定位结果。
Aug, 2023
就细调技术在预训练模型的潜力释放和模型在分布偏移中的鲁棒性之间存在权衡关系,研究提出了一种校准鲁棒微调(CaRot)方法,以在内部数据和外部数据集上提高预训练视觉 - 语言模型(VLMs)的校准性和鲁棒性。验证结果证明了该方法的有效性。
Nov, 2023
通过文本增强方法,不需要在对抗性示例上重新训练图像编码器,从而增强视觉 - 语言模型的稳健性,并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。
Nov, 2023
该文章从预训练功能提取器、视觉超出分布(OOD)检测、语言图像预训练模型、对抗性操纵的 OOD 图像和视觉异常检测等方面进行了全面实验研究,证明了使用最近邻特征相似度作为 OOD 检测得分的对比语言 - 图像预训练模型实现了最先进的无监督 OOD 性能,同时可以在无内部分布微调的情况下获得有监督的最先进 OOD 检测性能,并指出需要基于实验研究建立新的视觉异常检测基准。
Mar, 2023
通过测试时间提示调整范式优化学习提示的方式,该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息,同时强调关键的与任务相关的视觉线索。
Mar, 2024