Jun, 2024

文本到图像生成模型中的构成问题的理解和减轻

TL;DR通过研究基于组合性失败模式,我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因,并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进,同时不降低模型的 FID 分数。