DreamLIP:长描述文本的语言 - 图像预训练
我们介绍了一种新的图像预训练模型 Llip,它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力,并通过条件化输入信息来生成更丰富的视觉表示,相较于 CLIP 等基线模型,在多项任务上都有更好的性能表现,包括零样本分类和零样本检索。
Apr, 2024
我们提出了一种理论上严谨的数据选择方法,通过保留图像和标题的交叉协方差,提高 Contrastive Language-Image Pre-training 模型的泛化性能,并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明,我们的子集相比其他基线方法,可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度,同时,在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。
Mar, 2024
通过松弛 Conceptual Captions 3M (CC3M) [Sharma et al. 2018] 数据收集流程,我们引入了 Conceptual 12M(CC12M)数据集,并通过针对长尾视觉识别的多个下游任务基准测试其有效性,结果表明增加预训练数据规模会使视觉和语言任务更加有效。
Feb, 2021
使用图像和标题的联合信息进行预训练可提高图像表征能力,该方法通过 image-conditioned masked language modeling(ICMLM)任务来实现,训练出的表征能够成功应用于多种目标任务。
Aug, 2020
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用 MLLMs 扩展每个图像的多个标题,通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得 5.6〜35.0%和 16.8〜46.1%的 R@1 提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对 MLLMs 的多方面使用的探索。
Nov, 2023
通过引入 Long-CLIP 作为 CLIP 的替代方案,本研究提供了一种支持长文本输入的方法,并保持了零样本泛化能力,提高了长标题文本 - 图像检索和传统文本 - 图像检索任务的性能。
Mar, 2024
本文旨在通过引入多对多局部关系建模来增强数据效率,从而更有效地利用有限的医学图像文本数据。我们提出了医学语言 - 图像预训练(MLIP)框架,通过补丁 - 句子匹配的方式更有效地利用图像 - 文本医学数据,同时引入遮蔽对比学习策略和语义完整性估计以减少图像中的冗余并保留其底层语义。我们的评估结果显示,MLIP 在零 / 少样本分类和少样本分割任务中表现出较大的优势。
Jan, 2024
本论文提出了一种新方法,使用大型语言模型从文本描述和上下文中生成图像字幕,而无需直接处理图像,经调优后,该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型,解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。
Jun, 2023
本研究关注于通过改善数据质量和数据多样性,特别强调了视觉概念与标题的整合,提出了一种用于 web 爬取数据集训练的新方法 VeCLIP,通过综合评估数据效率和模型性能,证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。
Oct, 2023
通过生成综合信息的合成字幕并动态调整样本权重,自适应对比损失有效降低噪音数据的影响并增强预训练数据效率,Adaptive Language-Image Pre-training (ALIP) 在不同规模模型和预训练数据集上进行了实验验证,并在多个下游任务中取得了最先进的性能,包括零样本图像 - 文本检索和线性探测。
Aug, 2023