CVPRApr, 2024

基于扩散的文本到图像生成的可扩展性研究

TL;DR通过对缩放去噪网络骨干和训练集的广泛割离实验,本研究探讨了扩大规模的扩散式文本到图像(T2I)模型的特性,发现在模型扩展方面,跨向量关注的位置和数量对现有 UNet 设计的性能具有差异性,增加 Transformer 模块对于提高文本和图像的对齐比增加通道数量更加参数有效。在数据扩展方面,我们发现训练集的质量和多样性比简单的数据集大小更重要,增加标题密度和多样性可以提高文本和图像的对齐性能和学习效率。最后,我们提供了预测文本和图像对齐性能的缩放函数,函数依赖于模型规模、计算和数据集大小。