ICCVAug, 2023

ALIP: 自适应语言图像预训练与合成字幕

TL;DR通过生成综合信息的合成字幕并动态调整样本权重,自适应对比损失有效降低噪音数据的影响并增强预训练数据效率,Adaptive Language-Image Pre-training (ALIP) 在不同规模模型和预训练数据集上进行了实验验证,并在多个下游任务中取得了最先进的性能,包括零样本图像 - 文本检索和线性探测。