May, 2024

可控的图像生成与组合的并行标记预测

TL;DR通过组合离散生成模型的对数概率输出,我们提出了一种可控条件图像生成的公式,该方法在 FFHQ、Positional CLEVR 和 Relational CLEVR 三个不同场景中实现了最先进的生成准确性,并达到了竞争性的 Fréchet Inception Distance (FID) 得分,平均生成准确性为 80.71%,平均 FID 为 24.23,与其他方法相比具有 2.3 倍至 12 倍的速度优势,并提供了可解释的控制性维度以及对文本 - 图像生成的精细控制能力。