Oct, 2023

从稀缺到高效:通过视觉丰富的标题改进 CLIP 训练

TL;DR本研究关注于通过改善数据质量和数据多样性,特别强调了视觉概念与标题的整合,提出了一种用于 web 爬取数据集训练的新方法 VeCLIP,通过综合评估数据效率和模型性能,证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。