使用语言改写改善CLIP训练
本文提出一种用于Contrastive Language-Image Pre-training (CLIP)的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像-文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现60.4%的零样本top1准确率,并在转化到下游任务时优于常规CLIP模型。
Oct, 2021
本研究提出了一项名为CLIP-TD的方法,对视觉-语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的CLIP-TD在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
本文提出CLIP-benchmark,对CLIP及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高CLIP性能。
Mar, 2022
本文介绍了一种名为RECLIP的方法,其最小化了用于Contrastive Language Image Pretraining的计算资源,实现了高效的语言监督预训练。该方法利用小图像高效地学习大规模语言监督,并在最后使用高分辨率数据进行微调,以降低训练资源要求,并展示了与现有方法相比极具竞争力的指标表现。
Apr, 2023
本文中,我们提出了一些基线模型,将对比学习与最近的自监督学习进展相结合,用于生成多模态表示。除了使用对比性损失,我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能,使我们在四个标准数据集上获得了最先进的性能。
May, 2023
通过提出ReCLIP方法,第一个无需源数据或目标标记数据的视觉-语言模型领域自适应方法,该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响,在22个图像分类基准测试中将CLIP的平均错误率从30.17%降低到25.06%。
Aug, 2023
本研究关注于通过改善数据质量和数据多样性,特别强调了视觉概念与标题的整合,提出了一种用于web爬取数据集训练的新方法VeCLIP,通过综合评估数据效率和模型性能,证明了VeCLIP在改善图片-文本对齐和整体模型性能方面的显著优势。
Oct, 2023
通过在CLIP训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023
我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高Contrastive Language-Image Pre-training模型的泛化性能,并在ConceptualCaptions3M和ConceptualCaptions12M上进行的实验证明,我们的子集相比其他基线方法,可在ImageNet和其变体上实现超过2.7倍和1.4倍的准确度,同时,在11个下游数据集中平均准确度达到其他基线方法的1.5倍。
Mar, 2024
通过扩展数据集和模型架构,该研究进一步探索了具有对比语言-图像预训练(CLIP)的视觉语言任务的性能,在处理来自网站的图像-文本对时。通过引入多样化的描述生成框架,该研究提出了RWKV-CLIP,其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集,证明了RWKV-CLIP是一个强大而有效的视觉语言表征学习器,在线性探测、零样例分类和零样例图像-文本检索等多个下游任务中实现了最先进的性能。
Jun, 2024