概念 12M：推动网页规模的图像文本预训练，以识别长尾视觉概念

CVPRFeb, 2021

概念 12M：推动网页规模的图像文本预训练，以识别长尾视觉概念

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut

TL;DR通过松弛 Conceptual Captions 3M (CC3M) [Sharma et al. 2018] 数据收集流程，我们引入了 Conceptual 12M（CC12M）数据集，并通过针对长尾视觉识别的多个下游任务基准测试其有效性，结果表明增加预训练数据规模会使视觉和语言任务更加有效。

Abstract

The availability of large-scale image captioning and visual question answering datasets has contributed significantly to recent successes in vision-and-language pre-training. However, these datasets are often collected with overrestrictive requirements inherited from their original tar

vision-and-language pre-training conceptual captions data collection long-tail visual recognition scaling up pre-training data

发现论文，激发创造

DreamLIP：长描述文本的语言 - 图像预训练

通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Mar, 2024

图像字幕生成的视觉语言预训练规模化提升

本研究介绍了 LEMON，一个大规模图像描述生成模型，探究了基于视觉 - 语言预训练的 transformer 模型在图像描述生成中的可扩展性，并使用大量数据和不同训练方法对其进行了实验和分析，取得了多个数据集上的最新成果。

Nov, 2021

使用带噪文本监督扩展视觉和视觉语言表示学习

本文利用包含超过 10 亿个图像备选文本对的嘈杂数据集，采用简单的双编码器体系结构通过对比损失，学习了图像和文本对的视觉和语言表示，显示出我们语料库的规模可以弥补其噪音，即使使用这样的简单学习方案也能实现最先进的表现，使跨模式搜索变得更加容易。

Feb, 2021

图像字幕生成器也是可扩展的视觉学习者

本文通过仔细匹配训练数据、计算和模型容量，公平地比较了对比预训练和图像字幕等两种预训练策略，并发现仅采用图像字幕训练也很有效，既可以产生与对比预训练编码器竞争的视觉编码器，也可以在视觉和语言任务上超越它们。

Jun, 2023

CapsFusion: 大规模重塑图像 - 文本数据

为了提供更高质量和更可扩展的多模态预训练数据，我们提出了 CapsFusion，一种先进的框架，利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明，CapsFusion 字幕在模型性能（例如，COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8％和 18.3％）、样本效率（比基准计算需求少 11-16 倍）、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。

Oct, 2023

ConceptBed: 评估文本到图像扩散模型的概念学习能力

为了定量衡量 T2I 模型在学习和合成新型视觉概念的能力，该论文提出了一个大规模数据集 ConceptBed 和一个新的评估指标 Concept Confidence Deviation (CCD)，作者评估了对象、属性、样式及四种组合性维度，研究发现概念学习和保持组合性之间存在权衡。

Jun, 2023

高效对比语言 - 图像预训练：数据质量优先于数量

我们提出了一种理论上严谨的数据选择方法，通过保留图像和标题的交叉协方差，提高 Contrastive Language-Image Pre-training 模型的泛化性能，并在 ConceptualCaptions3M 和 ConceptualCaptions12M 上进行的实验证明，我们的子集相比其他基线方法，可在 ImageNet 和其变体上实现超过 2.7 倍和 1.4 倍的准确度，同时，在 11 个下游数据集中平均准确度达到其他基线方法的 1.5 倍。

Mar, 2024

联合学习问答器和密集字幕生成器强化视觉语言预训练

本文提出一种名为 Joint QA and DC Generation (JADE) 的新方法，利用预训练的多模态模型及易于爬取的图像 - 文本对生成和过滤大规模的视觉问答和密集字幕数据集。我们将该方法应用于概念字幕（CC3M）数据集，生成了一个名为 CC3M-QA-DC 的新的数据集，在多任务方式预训练时，CC3M-QA-DC 可以改善各种骨干网络在各种下游任务中的性能，并与更多数据使用模型相比，我们生成的 CC3M-QA-DC 和更大的图像 - 文本数据集（例如 CC15M）相结合，在相同的计算条件下达到了有竞争力的结果。

May, 2023

从稀缺到高效：通过视觉丰富的标题改进 CLIP 训练

本研究关注于通过改善数据质量和数据多样性，特别强调了视觉概念与标题的整合，提出了一种用于 web 爬取数据集训练的新方法 VeCLIP，通过综合评估数据效率和模型性能，证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。

Oct, 2023

WuDaoMM：大规模多模态数据集用于预训练模型

本篇论文介绍了一种大规模多模态库 WuDaoMM 用于 Vision-Language 解决方案的预训练模型，其中包含了超过 650M 的弱相关和强相关的图片 - 文本对，并经过实验证明，WuDaoMM 是一种高效的 VLPMs 数据集。

Mar, 2022