本文实证表明,CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本 /few-shot 结果。
Mar, 2022
通过跨模态训练,结合视觉和语言信息,利用少量的训练样本和类名,建立了一个更好的狗狗分类器,并构建了第一个音视频少样本学习基准。
Jan, 2023
本文提出了一种名为 MA-CLIP 的新方法,旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别,从而解决传统方法中的参数调优和时间建模的问题。
Aug, 2023
多模态模型的少样本适应方法在医学成像等领域仍有待提高,研究者提出了基于提示、适配器和外部知识的三种技术方法,本论文对这些方法进行了综述及对比,并推导出了多模态模型少样本适应的泛化误差界限及相应解决方案。
Jan, 2024
提出了 Meta-Adapter 方法,它是一种轻量级的残差式适配器,通过在线学习利用少量样本来优化 CLIP 特征,从而实现有效的少样本学习能力和泛化到未见过的数据或任务的能力,并取得了竞争性的性能和高效率。
Nov, 2023
我们提出了一种利用 CLIP 等大规模视觉语言模型进行少样本学习的新框架 PROT0-CLIP。该框架通过图像原型和文本原型实现少样本学习,并通过对齐相应类别的图像和文本原型来提高分类效果。我们通过在少样本学习的基准数据集上以及在机器人感知领域的实际应用中进行实验证明了我们方法的有效性。
Jul, 2023
通过对 CLIP 的理论研究,我们证明了多模态学习的可转移表示学习,并分析了其在零样本学习和下游任务中的性能。在此基础上,我们提出了一种新的 CLIP 类型方法,在基准数据集上实现了比 CLIP 和其他最先进方法更好的性能。
Oct, 2023
通过跨模态引导和模态置信度集成,X-MoRe 方法利用 CLIP 的跨模态表示能力,从外部图文对数据集中检索相关的文本信息,并通过赋予可靠性更高的模态对最终预测产生贡献,从而在多样化的任务中展示了稳健的性能,充分发挥了 CLIP 的零样本分类能力。
设计一个学习算法来处理图像和文本两个数据源,通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示,最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提供了新的训练方法和定量分析的详细描述。
Jun, 2024
基于大规模的鲁棒性基准测试,本研究通过评估 CLIP 模型在自然分布偏移和对抗攻击下的性能,发现零样本多模态模型的鲁棒性明显不足,强调了对零样本多模态模型的鲁棒性进行改进的重要性。
Mar, 2024