Oct, 2024

扩散优于自回归:对文本到图像模型中组合生成的评估

TL;DR本研究针对文本到图像(T2I)生成模型在组合生成中的不足,尤其是在捕捉输入提示中的细节时面临的挑战。我们评估了新开源的扩散模型FLUX与现有自回归模型在组合生成能力上的差异,结果显示FLUX在多个指标上表现出色,超越了自回归模型LlamaGen,具有与顶尖闭源模型DALL-E3相当的组合生成能力。