通过减少模态内部重叠进行CLIP适应
本篇论文提出了一种利用键值缓存模型构建适配器的零训练方法 Tip-Adapter,来有效地增强 Contrastive Vision-Language Pre-training(CLIP)的适应能力,为少样本学习提供了一个计算资源高效的选择。实验证明,Tip-Adapter 在 11 个数据集上均有突出表现,并可以通过少量的模型微调达到 ImageNet 上的最优。
Jul, 2022
本文提出了一种名为CALIP的方法,通过一个无需参数的关注模块,在不增加额外的训练开销和数据需求的情况下提高Contrastive Language-Image Pre-training的零样本性能。
Sep, 2022
提出了Meta-Adapter方法,它是一种轻量级的残差式适配器,通过在线学习利用少量样本来优化CLIP特征,从而实现有效的少样本学习能力和泛化到未见过的数据或任务的能力,并取得了竞争性的性能和高效率。
Nov, 2023
在这项工作中,我们介绍了一种用于CLIP的样本高效领域适应策略,称为Domain Aligned CLIP (DAC),它在不对主模型进行全量微调的情况下,改进了目标分布上的内部模态对齐和跨模态对齐。通过引入一个轻量级的适配器和一个简单的框架调节类文本嵌入,DAC提供了一个计算效率高、抗分布转移性强且不改变CLIP参数的少样本微调框架,在11个广泛使用的图像分类任务中,以2.3%的提升应对16个样本分类挑战,并在4个鲁棒性基准上展现出竞争性能。
Nov, 2023
通过自动生成高质量多样文本,利用CrOss-moDal nEighbor Representation (CODER) 对CLIP进行特征提取,提高CLIP在单模态特征提取上的性能,进而充分发挥其强大的跨模态匹配能力。
Apr, 2024
在多模态对比模型中存在模态差距(modality gap),且对比损失(contrastive loss)实际上导致了这种差距。为了解决这个问题,研究人员通过将单模态对比损失的均匀性和对齐性原则引入到多模态环境中,改进了对比损失函数(CLIP loss),使得嵌入更均匀地分布在表示空间中,从而消除了差距,进而在零样本图像分类和多模态算术等下游任务中实现了更好的性能。
May, 2024
通过设计AlignCLIP,本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题,并通过大量实验证明了AlignCLIP在嵌入的跨模态对齐上取得了显著的改进,从而减少了模态间隙,并在零样本图像分类、零样本多模态检索和零样本语义文本相似性等多个下游评估中保持了性能。
Jun, 2024
通过结合局部表示和高层语义表示的互补优势,我们提出了 Meta-Feature Adaption 方法 (MF-Adapter),并使用 Meta-Feature Unit(MF-Unit)来适应图片特征,从而在无标签样本下达到更好的分类性能。
Jul, 2024
本研究针对现有的轻量级适配方法在视觉和文本表征之间缺乏互动的问题,提出了一种名为多模态适配器的新方法。通过引入可训练的多头注意力层,该方法有效结合了图像和文本特征,实现了更好的模型通用性,并在未见类别上的表现优于现有的适配方法。
Sep, 2024