Nov, 2021

ClipCap: 图像字幕的 CLIP 前缀

TL;DR本文使用CLIP编码作为前缀,利用简单的映射网络,然后微调语言模型以生成图像标题,无需额外的注释或预训练,有效地为大规模和多样化的数据集生成有意义的标题。同时,我们证明了我们的模型在有挑战性的概念标题和nocaps数据集上取得了可比较的结果,同时更简单、更快、更轻。