CVPRNov, 2021

LAFITE:面向文本图像生成的语言无关训练

TL;DR本文提出了一种基于 CLIP 模型的无语言数据训练文本到图像生成模型的方法,采用图像特征生成文本特征,实现了对文本数据的无缝融合。实验结果表明,该方法在标准文本到图像生成任务中取得了最好的表现,并且优于大多数使用完整图像 - 文本对进行训练的现有模型。此外,我们的方法可以应用于微调预训练模型,从而节省文本到图像生成模型的培训时间和成本。