Dec, 2023

一幅图片胜过 77 个文本标记:对密集字幕下的 CLIP 风格模型进行评估

TL;DR有关大规模视觉语言数据集的筛选方法在数据集大小和质量之间进行权衡,而即使是可用的最高质量的筛选标题也远远不足以捕捉图像中丰富的视觉细节。