Apr, 2022

使用CLIP潜变量的分层文本条件图像生成

TL;DR提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为decoder,同时使用自回归和扩散模型作为prior,发现后者更加高效且产生的样本更优。