ACLFeb, 2024

用两步重述细调 CLIP 文本编码器

TL;DR通过引入一个简单的微调方法,我们提出了一种改进 CLIP 模型对于释义的表征的方法,该方法使用大规模语言模型从 Web 规模的图像字幕中自动创建两类释义,并在固定图像编码器的同时微调 CLIP 文本编码器。我们的模型 ParaCLIP 在各种任务中都显示出与基准 CLIP 模型相比的显著改进,包括释义检索、Visual Genome 关系和属性,以及七个语义文本相似度任务。