ACLMay, 2022

使用 CLIP 奖励的细粒度图像字幕生成

TL;DR本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题,同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势,并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。