Dec, 2023

鹦鹉字幕教授 CLIP 识别文本

TL;DRCLIP 模型在图像 - 语言任务中被广泛应用,然而该模型在文本定位方面存在严重的偏见问题;研究发现在 LAION-2B 数据集中,约 50% 的图像含有嵌入文本内容,而 90% 的图像标题对嵌入文本基本重复;通过对不同标准下的训练集进行实验,验证了这样的标题会导致文本定位偏见,同时对 CLIP 的视觉 - 语言表示学习造成了负面影响;因此,需要重新审视 CLIP 模型设计或基于 CLIP 评分过滤的现有图像 - 语言数据集处理流程。