Mar, 2024

CLIP-VQDiffusion: 基于 CLIP 和向量量化扩散模型的无语言训练文本生成图像

TL;DR本文提出了利用预训练的 CLIP 模型来实现多模态文本 - 图像表示和强大的图像生成能力的 CLIP-VQDiffusion 模型,在 FFHQ 数据集上,该模型的 Clipscore 得分超过了之前最先进的方法 4.4%,并且即使在分布内外的情况下,生成的图像也非常逼真。