AAAIDec, 2022

通过提示实现可控的图像描述

TL;DR本文提出了一种统一模型,能够在不同领域间自由切换并实现生成所需风格的图像描述,这种可控能力通过在图像描述的框架中嵌入提示学习来实现,具体采用一组提示用于微调预训练的图像描述器,而这些提示则在连续的词嵌入空间中通过可学习向量进行优化,从而避免启发式提示工程,并展现出卓越的性能。