Dec, 2023
一幅图片胜过 77 个文本标记:对密集字幕下的 CLIP 风格模型进行评估
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions
Jack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma...
TL;DR有关大规模视觉语言数据集的筛选方法在数据集大小和质量之间进行权衡,而即使是可用的最高质量的筛选标题也远远不足以捕捉图像中丰富的视觉细节。