一幅图片胜过 77 个文本标记：对密集字幕下的 CLIP 风格模型进行评估

Dec, 2023

一幅图片胜过 77 个文本标记：对密集字幕下的 CLIP 风格模型进行评估

A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

Jack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma...

TL;DR有关大规模视觉语言数据集的筛选方法在数据集大小和质量之间进行权衡，而即使是可用的最高质量的筛选标题也远远不足以捕捉图像中丰富的视觉细节。

Abstract

curation methods for massive vision-language datasets trade off between dataset size and quality. However, even the highest quality of available curated captions are far too short to capture the rich visual detai

curation methods vision-language datasets densely captioned images vision-language models clip

发现论文，激发创造

从稀缺到高效：通过视觉丰富的标题改进 CLIP 训练

本研究关注于通过改善数据质量和数据多样性，特别强调了视觉概念与标题的整合，提出了一种用于 web 爬取数据集训练的新方法 VeCLIP，通过综合评估数据效率和模型性能，证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。

Oct, 2023

密集对齐字幕（DAC）促进视觉语言模型中的组合推理

本文探索了影响视觉语言模型组合推理性能的两个因素：对齐图像 - 文本数据集的质量和文本的密度。通过在 CC3M 数据集上 fine-tuning CLIP 模型，我们证明了自动处理这些影响因素的方法可以使模型的组合推理性能显著提高，基于基线模型的表现增加了约 20％，平均提高 6.7％。

May, 2023

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024

DreamLIP：长描述文本的语言 - 图像预训练

通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Mar, 2024

标题：标题值得 1000 张图片？控制学习的研究

通过比较图像和语言数据的传输表现，研究证明，当预训练数据集足够大而又包含了低变异性的描述性标题时，对于分类任务来说，仅使用图像的方法不能与 CLIP 的传输性能相匹配。

Jul, 2022

更新 CLIP 以偏爱描述而非标题

通过使用 Concadia 数据集来更新 CLIP 模型，使用参数高效微调和基于因果可解释性的损失目标，以区分描述和标题，并获得盲人和弱视人群的判断，同时保持转移能力和可解释性结构。

Jun, 2024

通过 CLIP 引导的分组优化实现独特的图像字幕

本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述，引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准，并提出了一种简单有效的训练策略，通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性，通过与现有最先进的模型的性能比较，我们宣称我们的模型在独特性目标上达到了新的最先进水平。

Aug, 2022

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

使用 CLIP 奖励的细粒度图像字幕生成

本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题，同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势，并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。

May, 2022

DenseCLIP: 基于语言引导的密集预测和上下文感知提示

本文提出了一种框架，通过使用 CLIP 的预训练知识的隐式和显式方法来进行密集预测，是一种模型不可知的方法，可应用于任意密集预测系统和各种预训练视觉 Backbones，包括 CLIP 模型和 ImageNet 预训练模型，实证实验表明，我们的方法在语义分割，目标检测和实例分割任务上具有优越的性能。

Dec, 2021