Oct, 2024

基于扩散模型的增强文本到图像生成的中间表示

TL;DR本研究针对现有文本到图像扩散模型在细粒度空间信息处理上的不足,通过提出一种两阶段的组合方法来优化图像生成。在第一阶段,设计基于扩散的生成模型生成与文本相关的中间表示;第二阶段则将这些表示与文本结合,生成最终图像。研究表明,该方法显著提高了图像生成质量,改善了FID和CLIP得分。