Mar, 2022

CLIP-GEN: 使用 CLIP 进行无需语言条件的文本 - 图像生成训练

TL;DR本文提出了一种自监督学习策略 CLIP-GEN 用于通用的文本生成图像,只需要通用领域的未标记图像。我们使用来自 CLIP 的语言 - 图像先验知识,并使用自编码器和自回归变换器将图像转换为文本标记,并基于这里从文本编码器中提取的文本嵌入生成连贯的图像标记。定量和定性评估表明本方法在图像质量方面明显优于基于优化的文本到图像方法,而且不会影响文本与图像的匹配。