CVPRMay, 2024

FFF: 修正有缺陷的基础对比预训练会得到非常强大的视觉 - 语言模型

TL;DR本文研究视觉语言对比预训练中的问题,提出了解决负样本分配不正确和字幕质量低和多样性不足的有效方法,并通过使用 sigmoid loss 进行训练,在图像识别和图像检索方面取得了非常大的增益。