鹦鹉字幕教授 CLIP 识别文本

Dec, 2023

Parrot Captions Teach CLIP to Spot Text

Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li...

TL;DRCLIP 模型在图像 - 语言任务中被广泛应用，然而该模型在文本定位方面存在严重的偏见问题；研究发现在 LAION-2B 数据集中，约 50% 的图像含有嵌入文本内容，而 90% 的图像标题对嵌入文本基本重复；通过对不同标准下的训练集进行实验，验证了这样的标题会导致文本定位偏见，同时对 CLIP 的视觉 - 语言表示学习造成了负面影响；因此，需要重新审视 CLIP 模型设计或基于 CLIP 评分过滤的现有图像 - 语言数据集处理流程。

Abstract

Despite clip being the foundation model in numerous vision-language applications, the clip suffers from a severe text spotting bias. Such

clip text spotting bias laion-2b visual text image-text dataset

发现论文，激发创造

更新 CLIP 以偏爱描述而非标题

通过使用 Concadia 数据集来更新 CLIP 模型，使用参数高效微调和基于因果可解释性的损失目标，以区分描述和标题，并获得盲人和弱视人群的判断，同时保持转移能力和可解释性结构。

Jun, 2024

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

从稀缺到高效：通过视觉丰富的标题改进 CLIP 训练

本研究关注于通过改善数据质量和数据多样性，特别强调了视觉概念与标题的整合，提出了一种用于 web 爬取数据集训练的新方法 VeCLIP，通过综合评估数据效率和模型性能，证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。

Oct, 2023

CLIP 与优质字幕：强大的视觉任务预训练

简要概述：通过改进图像 - 文本数据集中标题的质量，有助于改善 CLIP 模型的视觉表示质量，并在密集预测视觉任务中取得显著的性能提升。

May, 2024

用两步重述细调 CLIP 文本编码器

通过引入一个简单的微调方法，我们提出了一种改进 CLIP 模型对于释义的表征的方法，该方法使用大规模语言模型从 Web 规模的图像字幕中自动创建两类释义，并在固定图像编码器的同时微调 CLIP 文本编码器。我们的模型 ParaCLIP 在各种任务中都显示出与基准 CLIP 模型相比的显著改进，包括释义检索、Visual Genome 关系和属性，以及七个语义文本相似度任务。

Feb, 2024

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

CLIP 是否总是比 ImageNet 模型具有更好的泛化能力？

在这篇研究中，通过构建一个包含真实背景上的动物照片的真实世界数据集 CounterAnimal，评估了大规模视觉语言模型 CLIPs 在应对背景引起的干扰时的性能。实验发现，CLIPs 在不同背景下的性能存在显著下降，而 ImageNet 上单模态模型的稳健性更高。研究结果提示 CLIPs 在分布转换下仍面临问题，同时也需要在对规模和分布相差较大的基础模型进行评估时保持谨慎。

Mar, 2024

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

C-CLIP：用于缩小描述性文字之间差距的对比图像 - 文本编码器

通过训练对比图像 - 文本编码器，利用明确的评论式对提高检索结果的准确性进行了大幅改进，并且这种改进可扩展至多种非英语语言。

Sep, 2023

S-CLIP: 使用少量特定字幕的半监督视觉 - 语言预训练

提出了一种半监督学习方法 S-CLIP，利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练，采用两个伪标签策略，分别针对对比学习和语言模态，能够显著增强 CLIP 的训练，取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。

May, 2023