EMNLPNov, 2022

使用注入噪声的 CLIP 进行图像字幕的文本训练

TL;DR本文提出一种使用 CLIP 模型和文本数据进行图像字幕生成的方法,只需学习如何将文本嵌入转化为文本,故只需学习一个将固定的嵌入解码的解码器,通过噪声注入进行训练,实现了 SOTA 零样本图像字幕生成。