多模态CLIP推理用于元-少样本图像分类
通过对齐图像和标题数据,我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入,并使用预先训练的冻结语言模型来生成相应的标题,从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型,具有学习各种新任务的惊人能力,如用只有少数几个样例进行视觉问答,或者利用外部知识。
Jun, 2021
本文中,我们提出了一些基线模型,将对比学习与最近的自监督学习进展相结合,用于生成多模态表示。除了使用对比性损失,我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能,使我们在四个标准数据集上获得了最先进的性能。
May, 2023
以数据筛选为核心的对比语言-图像预训练及元数据筛选的方法MetaCLIP,在多个标准基准测试中优于CLIP以CommonCrawl为数据源的结果,MetaCLIP在零样本ImageNet分类中达到70.8%的准确率,并在1B数据的情况下保持相同的训练预算达到72.4%的准确率。
Sep, 2023
提出了Meta-Adapter方法,它是一种轻量级的残差式适配器,通过在线学习利用少量样本来优化CLIP特征,从而实现有效的少样本学习能力和泛化到未见过的数据或任务的能力,并取得了竞争性的性能和高效率。
Nov, 2023
在这项工作中,我们介绍了一种用于CLIP的样本高效领域适应策略,称为Domain Aligned CLIP (DAC),它在不对主模型进行全量微调的情况下,改进了目标分布上的内部模态对齐和跨模态对齐。通过引入一个轻量级的适配器和一个简单的框架调节类文本嵌入,DAC提供了一个计算效率高、抗分布转移性强且不改变CLIP参数的少样本微调框架,在11个广泛使用的图像分类任务中,以2.3%的提升应对16个样本分类挑战,并在4个鲁棒性基准上展现出竞争性能。
Nov, 2023
通过 Zoom-shot 方法,利用多模态损失函数将 CLIP 潜空间与预训练视觉编码器的潜空间进行线性映射,从而在粗粒度和细粒度分类数据集上提升了现有的零样本能力,实现了下一代 VLMs 的开发。
Jan, 2024
CapS-Adapter是一种创新方法,通过利用图像和字幕特征构建接近目标分布的支持集,超越现有的最先进技术,实现了在无需训练的情况下的显着零样本分类改进。
May, 2024
通过结合局部表示和高层语义表示的互补优势,我们提出了 Meta-Feature Adaption 方法 (MF-Adapter),并使用 Meta-Feature Unit(MF-Unit)来适应图片特征,从而在无标签样本下达到更好的分类性能。
Jul, 2024
本研究针对CLIP模型在分类稳健性方面的评估,提出了一种更为全面的评估方法。通过分析视觉因素变化、信心不确定性、超出分布检测和3D意识等多个维度,发现模型架构对3D损坏的稳健性影响显著,同时识别出CLIP模型在预测时有形状偏倚的问题,从而为提升其稳健性与可靠性提供了重要指导。
Oct, 2024
本研究解决了CLIP模型在图像分类中的解读与分析问题,尤其是如何理解视觉和语言两个模态之间的共同概念。通过文本概念的解释方法,我们分析了13个不同架构、规模和预训练数据集的CLIP模型,发现它们的互知识关系有效影响了零样本预测的结果。这一方法为理解CLIP的零样本分类决策提供了有效且易于人类理解的方式。
Oct, 2024