语言图像预训练的 Sigmoid Loss

Mar, 2023

Sigmoid Loss for Language Image Pre-Training

Xiaohua Zhai, Basil Mustafa, Alexander Kolesnikov, Lucas Beyer

TL;DR本文提出了针对图像 - 文本预训练的简单对数损失函数，其中使用 sigmoid 函数，从而可以放大批量大小，并实现更好的性能表现。

Abstract

We propose a simple pairwise sigmoid loss for image-text pre-training. Unlike standard contrastive learning with softmax normalization, the sigmo

pre-training sigmoid loss batch size clip model language-image

发现论文，激发创造

使用 Sigmoid Loss 进行对比学习的分析

对使用 sigmoid 损失进行对比学习的理论分析，使用双常数嵌入模型（CCEM）参数化多种已知嵌入结构，数学分析 sigmoid 损失下的最优嵌入，实验结果与理论结果一致。

Feb, 2024

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

对比视觉语言预训练中的标题多样性建模

我们介绍了一种新的图像预训练模型 Llip，它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力，并通过条件化输入信息来生成更丰富的视觉表示，相较于 CLIP 等基线模型，在多项任务上都有更好的性能表现，包括零样本分类和零样本检索。

Apr, 2024

零 - shot 转移学习的综合缩放

研究使用 BASIC 方法将对比学习框架在三个方面进行扩展：数据规模、模型规模和批次大小，并取得了对比学习模型的极高准确性和健壮性。

Nov, 2021

CatLIP: 在 Web 规模的图文数据上 2.7 倍速度预训练的 CLIP 级别视觉识别准确性

通过对网络规模的图像文本数据进行弱监督预训练，本论文提出了一种消除对比损失中成对图像和文本相似性计算的需要的方法，在训练速度上取得了显著的 2.7 倍加速。通过广泛的实验证明，该方法在各种视觉任务中具有高质量的表征。

Apr, 2024

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021

对抗攻击下的稳健对比语言 - 图像预训练

本文提出了 RoCLIP 方法，通过与一组随机示例进行比较来有效地断开损坏图像 - 字幕对之间的关联，从而实现对 CLIP 多模态模型的强化预训练和微调，有效降低目标数据污染和后门攻击的成功率，并提高模型性能。

Mar, 2023

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

CLIP 训练的反比例缩放定律

本文发现了 CLIP 训练的反比例缩放定律，即使用更大的图像 / 文本编码器，可以应用更短的图像 / 文本令牌序列进行训练，并通过减少计算障碍成功地训练 CLIP，在 A100 八 GPU 服务器上，我们的 CLIP 模型在～2 天、~3 天和～4 天内实现了零样本 top-1 ImageNet 准确率分别为 63.2％、67.8％和 69.3％，希望能够鼓舞更多学术领域的研究。

May, 2023

FFF: 修正有缺陷的基础对比预训练会得到非常强大的视觉 - 语言模型

本文研究视觉语言对比预训练中的问题，提出了解决负样本分配不正确和字幕质量低和多样性不足的有效方法，并通过使用 sigmoid loss 进行训练，在图像识别和图像检索方面取得了非常大的增益。

May, 2024