CLIP-TD:针对视觉语言任务的CLIP目标蒸馏
研究了在视觉与语言任务中使用大规模预训练模型CLIP作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与V&L相结合传递到下游任务,CLIP显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了Visual Question Answering,Visual Entailment和V&L Navigation等任务的新高峰。
Jul, 2021
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
本文实证表明,CLIP通过利用语言的能力可以成为强大的视觉-语言少样本学习器。我们评估了CLIP在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本/few-shot结果。
Mar, 2022
通过对数据规模和语言源域差异的研究,本文提出了一种基于CLIP的OmniSource跨模态学习方法,称为CLIP-ViP,通过视频代理机制改进后续预训练CLIP,从而实现显著提高视频-文本检索的性能。该方法在多个数据集上均取得了SOTA结果。
Sep, 2022
本文中,我们提出了一些基线模型,将对比学习与最近的自监督学习进展相结合,用于生成多模态表示。除了使用对比性损失,我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能,使我们在四个标准数据集上获得了最先进的性能。
May, 2023
该研究通过对多模态大型语言模型(MLLMs)中不同视觉编码器的有效性进行深入调查,发现了CLIP的浅层特征在细粒度任务(如定位和区域理解)中具有特殊优势。同时,研究还发现没有经过文本-图像对齐预训练的视觉模型DINO在MLLMs中作为视觉部分展现了有希望的性能,只需为其配备一个MLP层进行对齐,DINO在细粒度相关的感知任务中超过了CLIP。基于这些观察结果,研究提出了一种简单而有效的特征融合策略,称为COMM,它通过多层次特征融合将CLIP和DINO结合起来,以增强MLLMs的视觉能力。全面的实验证明了COMM相较于现有方法的卓越性能,展示了其在MLLMs中增强的视觉能力。
Oct, 2023
通过在推理过程中自动构建文本提示并使用其作为文本监督,CLIPArTT方法在不需要额外培训的情况下,通过独特的、最小侵入性的文本提示调优过程,使预训练视觉-语言模型在各种数据集和环境中动态提升性能并改善适应性。
May, 2024
通过CLIP-CITE框架,我们在最小参数调整的情况下,通过细致改进整个VLMs并整合知识蒸馏技术以保留获得的知识,有效地提升了特定任务在有限监督下的性能,同时保留了VLMs在其他数据集上的适应性。
Jul, 2024
本研究解决了CLIP模型预训练数据量大导致计算资源消耗的问题,提出了一种名为CLIP-CID的新型蒸馏机制。此方法通过图像语义平衡和集群-实例区分,有效提升了知识转移效率,并在多个下游任务中达到了最先进的性能。
Aug, 2024