本文提出一种新的视觉语言模型fine-tuning方式——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于context optimization
Oct, 2021
本文提出一种用于Contrastive Language-Image Pre-training (CLIP)的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像-文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现60.4%的零样本top1准确率,并在转化到下游任务时优于常规CLIP模型。
本研究提出了一项名为CLIP-TD的方法,对视觉-语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的CLIP-TD在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
本文提出了一种名为LaCLIP的新方法,通过语言重写增强CLIP的训练,具有语料丰富度高的特点,不需要额外的计算或内存负载,实现较高的图像-文本转移性能。
May, 2023
通过对CLIP的理论研究,我们证明了多模态学习的可转移表示学习,并分析了其在零样本学习和下游任务中的性能。在此基础上,我们提出了一种新的CLIP类型方法,在基准数据集上实现了比CLIP和其他最先进方法更好的性能。
Oct, 2023
通过对CLIP模型的视觉嵌入空间与仅视觉自监督学习的对比研究,我们发现最新的多模态大型语言模型(MLLMs)在视觉能力方面仍然存在系统性缺陷。为了解决这些问题,我们提出了一种特征混合(MoF)方法,通过将视觉自监督学习特征与MLLMs相结合,显著提高了它们的视觉基础能力,从而表明视觉表示学习仍然是一个待解决的问题,并且准确的视觉基础对于未来成功的多模态系统至关重要。
Jan, 2024
我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高Contrastive Language-Image Pre-training模型的泛化性能,并在ConceptualCaptions3M和ConceptualCaptions12M上进行的实验证明,我们的子集相比其他基线方法,可在ImageNet和其变体上实现超过2.7倍和1.4倍的准确度,同时,在11个下游数据集中平均准确度达到其他基线方法的1.5倍。
Mar, 2024
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP在扩展CLIP的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了RankCLIP在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
通过引入语义组合样本,我们通过一个简单的技术(称为CLIP-C),显著改善了零样本图像分类和跨模态检索的能力,而不需要额外的计算开销或模型参数增加。
Jul, 2024