语言图像预训练的 Sigmoid Loss
对使用 sigmoid 损失进行对比学习的理论分析,使用双常数嵌入模型(CCEM)参数化多种已知嵌入结构,数学分析 sigmoid 损失下的最优嵌入,实验结果与理论结果一致。
Feb, 2024
我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高 Contrastive Language-Image Pre-training 模型的泛化性能,并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明,我们的子集相比其他基线方法,可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度,同时,在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。
Mar, 2024
我们介绍了一种新的图像预训练模型 Llip,它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力,并通过条件化输入信息来生成更丰富的视觉表示,相较于 CLIP 等基线模型,在多项任务上都有更好的性能表现,包括零样本分类和零样本检索。
Apr, 2024
通过对网络规模的图像文本数据进行弱监督预训练,本论文提出了一种消除对比损失中成对图像和文本相似性计算的需要的方法,在训练速度上取得了显著的 2.7 倍加速。通过广泛的实验证明,该方法在各种视觉任务中具有高质量的表征。
Apr, 2024
本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率,并在转化到下游任务时优于常规 CLIP 模型。
Oct, 2021
本文提出了 RoCLIP 方法,通过与一组随机示例进行比较来有效地断开损坏图像 - 字幕对之间的关联,从而实现对 CLIP 多模态模型的强化预训练和微调,有效降低目标数据污染和后门攻击的成功率,并提高模型性能。
Mar, 2023
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
本文发现了 CLIP 训练的反比例缩放定律,即使用更大的图像 / 文本编码器,可以应用更短的图像 / 文本令牌序列进行训练,并通过减少计算障碍成功地训练 CLIP,在 A100 八 GPU 服务器上,我们的 CLIP 模型在~2 天、~3 天和~4 天内实现了零样本 top-1 ImageNet 准确率分别为 63.2%、67.8% 和 69.3%,希望能够鼓舞更多学术领域的研究。
May, 2023
本文研究视觉语言对比预训练中的问题,提出了解决负样本分配不正确和字幕质量低和多样性不足的有效方法,并通过使用 sigmoid loss 进行训练,在图像识别和图像检索方面取得了非常大的增益。
May, 2024