民主化对比语言-图像预训练:一个数据、模型和监督的 CLIP 基准
本文提出一种用于Contrastive Language-Image Pre-training (CLIP)的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像-文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现60.4%的零样本top1准确率,并在转化到下游任务时优于常规CLIP模型。
Oct, 2021
本研究提出了一项名为CLIP-TD的方法,对视觉-语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的CLIP-TD在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
本文提出了一种名为ECLIP的改进版Contrastive Language-Image Pre-training模型,通过Masked Max Pooling方法解决了原模型存在的semantic shift问题,在目标检测和可解释性等方面有着较大的提升。
Sep, 2022
本文中,我们提出了一些基线模型,将对比学习与最近的自监督学习进展相结合,用于生成多模态表示。除了使用对比性损失,我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能,使我们在四个标准数据集上获得了最先进的性能。
May, 2023
本文提出了一种名为LaCLIP的新方法,通过语言重写增强CLIP的训练,具有语料丰富度高的特点,不需要额外的计算或内存负载,实现较高的图像-文本转移性能。
May, 2023
以数据筛选为核心的对比语言-图像预训练及元数据筛选的方法MetaCLIP,在多个标准基准测试中优于CLIP以CommonCrawl为数据源的结果,MetaCLIP在零样本ImageNet分类中达到70.8%的准确率,并在1B数据的情况下保持相同的训练预算达到72.4%的准确率。
Sep, 2023
该研究全面调查了Contrastive Language-Image Pre-training (CLIP)模型的安全目标,特别关注三个关键属性:对视觉因素变化的弹性,校准的不确定性估计以及检测异常输入的能力。研究揭示了CLIP模型的一些以前未知的见解,并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的CLIP模型的发展。
Feb, 2024
我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高Contrastive Language-Image Pre-training模型的泛化性能,并在ConceptualCaptions3M和ConceptualCaptions12M上进行的实验证明,我们的子集相比其他基线方法,可在ImageNet和其变体上实现超过2.7倍和1.4倍的准确度,同时,在11个下游数据集中平均准确度达到其他基线方法的1.5倍。
Mar, 2024
研究通过受限的计算预算缩小规模的对比性语言-图像预训练(CLIP)的性能,分析数据、架构和训练策略三个维度,证明高质量训练数据的重要性,指出较小的数据集在一定计算限制下优于较大数据集,并提供选择基于CNN架构或ViT架构进行CLIP训练的指导。同时比较四种CLIP训练策略,并表明在可用计算资源上选择训练策略的不同,最后发现只使用一半的训练数据,CLIP+数据增强可以实现与CLIP相当的性能。本研究为有效训练和部署CLIP模型提供了实用见解,使其在各种应用中更加可行和经济实惠。
Apr, 2024
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP在扩展CLIP的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了RankCLIP在进一步推进视觉语言预训练方面的潜力。
Apr, 2024