DreamLIP：长描述文本的语言 - 图像预训练

Mar, 2024

DreamLIP：长描述文本的语言 - 图像预训练

DreamLIP: Language-Image Pre-training with Long Captions

Kecheng Zheng, Yifei Zhang, Wei Wu, Fan Lu, Shuailei Ma...

TL;DR通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Abstract

language-image pre-training largely relies on how precisely and thoroughly a text describes its paired image. In practice, however, the contents of an image can be so rich that well describing them requires lengthy captions (e.g., with 10 sentences), which are usually missing in existi

language-image pre-training long captions multi-modality large language model sub-captions dreamlip

发现论文，激发创造

对比视觉语言预训练中的标题多样性建模

我们介绍了一种新的图像预训练模型 Llip，它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力，并通过条件化输入信息来生成更丰富的视觉表示，相较于 CLIP 等基线模型，在多项任务上都有更好的性能表现，包括零样本分类和零样本检索。

Apr, 2024

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

概念 12M：推动网页规模的图像文本预训练，以识别长尾视觉概念

通过松弛 Conceptual Captions 3M (CC3M) [Sharma et al. 2018] 数据收集流程，我们引入了 Conceptual 12M（CC12M）数据集，并通过针对长尾视觉识别的多个下游任务基准测试其有效性，结果表明增加预训练数据规模会使视觉和语言任务更加有效。

Feb, 2021

利用标题注释学习视觉表征

使用图像和标题的联合信息进行预训练可提高图像表征能力，该方法通过 image-conditioned masked language modeling（ICMLM）任务来实现，训练出的表征能够成功应用于多种目标任务。

Aug, 2020

MLLMs 增强的视觉 - 语言表示学习

我们展示了多模态大型语言模型（MLLMs）通过提高数据质量来增强视觉语言表示学习，使用 MLLMs 扩展每个图像的多个标题，通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格，并在图像文本检索中，在微调和零样本设置下分别获得 5.6〜35.0％和 16.8〜46.1％的 R@1 提升，并且我们的零样本结果可与目标数据集上的微调相媲美，鼓励更多对 MLLMs 的多方面使用的探索。

Nov, 2023

长文本 CLIP: 解锁 CLIP 的长文本能力

通过引入 Long-CLIP 作为 CLIP 的替代方案，本研究提供了一种支持长文本输入的方法，并保持了零样本泛化能力，提高了长标题文本 - 图像检索和传统文本 - 图像检索任务的性能。

Mar, 2024

MLIP：医学语言 - 图像预训练与遮蔽局部表示学习

本文旨在通过引入多对多局部关系建模来增强数据效率，从而更有效地利用有限的医学图像文本数据。我们提出了医学语言 - 图像预训练（MLIP）框架，通过补丁 - 句子匹配的方式更有效地利用图像 - 文本医学数据，同时引入遮蔽对比学习策略和语义完整性估计以减少图像中的冗余并保留其底层语义。我们的评估结果显示，MLIP 在零 / 少样本分类和少样本分割任务中表现出较大的优势。

Jan, 2024

基于大型语言模型的图像背景和描述生成字幕

本论文提出了一种新方法，使用大型语言模型从文本描述和上下文中生成图像字幕，而无需直接处理图像，经调优后，该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型，解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。

Jun, 2023

从稀缺到高效：通过视觉丰富的标题改进 CLIP 训练

本研究关注于通过改善数据质量和数据多样性，特别强调了视觉概念与标题的整合，提出了一种用于 web 爬取数据集训练的新方法 VeCLIP，通过综合评估数据效率和模型性能，证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。

Oct, 2023

ALIP: 自适应语言图像预训练与合成字幕

通过生成综合信息的合成字幕并动态调整样本权重，自适应对比损失有效降低噪音数据的影响并增强预训练数据效率，Adaptive Language-Image Pre-training (ALIP) 在不同规模模型和预训练数据集上进行了实验验证，并在多个下游任务中取得了最先进的性能，包括零样本图像 - 文本检索和线性探测。

Aug, 2023