ECCVAug, 2022

通过 CLIP 引导的分组优化实现独特的图像字幕

TL;DR本研究聚焦于生成能够区分目标图像和其他相似图像的独特描述,引入了一系列使用大规模视觉 - 语言预训练模型 CLIP 量化独特性的度量标准,并提出了一种简单有效的训练策略,通过比较目标图像与相似图像组并优化组嵌入差距来提高字幕生成模型的独特性,通过与现有最先进的模型的性能比较,我们宣称我们的模型在独特性目标上达到了新的最先进水平。