ReCLIP:使用源域自适应提炼对比语言图像预训练
本文提出一种用于Contrastive Language-Image Pre-training (CLIP)的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像-文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现60.4%的零样本top1准确率,并在转化到下游任务时优于常规CLIP模型。
Oct, 2021
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
本文提出了一种名为CALIP的方法,通过一个无需参数的关注模块,在不增加额外的训练开销和数据需求的情况下提高Contrastive Language-Image Pre-training的零样本性能。
Sep, 2022
本文介绍了一种名为RECLIP的方法,其最小化了用于Contrastive Language Image Pretraining的计算资源,实现了高效的语言监督预训练。该方法利用小图像高效地学习大规模语言监督,并在最后使用高分辨率数据进行微调,以降低训练资源要求,并展示了与现有方法相比极具竞争力的指标表现。
Apr, 2023
HELIP是一种低成本的策略,它通过在原始训练数据上混合硬例子,然后使用对比对齐目标和边缘损失将经过良好训练的CLIP模型进行微调,从而提高其性能,而无需从头开始训练模型,HELIP在现有模型中以即插即用的方式实现,对于零样本识别和检索基准测试,HELIP连续提高原有模型的性能,尤其是在预先训练CC3M和CC12M的情况下,HELIP将SLIP的ImageNet零样本准确率分别提高了3.05和4.47
May, 2023
本文中,我们提出了一些基线模型,将对比学习与最近的自监督学习进展相结合,用于生成多模态表示。除了使用对比性损失,我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能,使我们在四个标准数据集上获得了最先进的性能。
May, 2023
本文提出了一种名为LaCLIP的新方法,通过语言重写增强CLIP的训练,具有语料丰富度高的特点,不需要额外的计算或内存负载,实现较高的图像-文本转移性能。
May, 2023
在这项工作中,我们介绍了一种用于CLIP的样本高效领域适应策略,称为Domain Aligned CLIP (DAC),它在不对主模型进行全量微调的情况下,改进了目标分布上的内部模态对齐和跨模态对齐。通过引入一个轻量级的适配器和一个简单的框架调节类文本嵌入,DAC提供了一个计算效率高、抗分布转移性强且不改变CLIP参数的少样本微调框架,在11个广泛使用的图像分类任务中,以2.3%的提升应对16个样本分类挑战,并在4个鲁棒性基准上展现出竞争性能。
Nov, 2023
通过直接利用CLIP进行领域间差异度量,提出了一种新颖的以语言为导向的无监督域自适应方法CLIP-Div,通过收集到的领域不可知分布度量领域差异并使用语言引导校准目标伪标签,从而有效减小领域差距并提高模型的泛化能力,实验证明此方法在Office-Home、Office-31、VisDA-2017和DomainNet数据集上均表现优于基于CNN的现有方法。
Jul, 2024
本研究针对领域适应过程中的目标数据获取困难问题,提出了一种新的基于单一视觉-语言嵌入的方法。该方法通过对低级源特征的仿射变换进行优化,实现了一种特征增强方法,从而有效利用了多种视觉风格进行零样本和单样本无监督领域适应。实验表明,所提方法在语义分割任务中超过了相关基线,展现了其有效性。
Oct, 2024