Mar, 2024

高分辨率图像合成的缩放修正流变压器

TL;DR对于高维感知数据, 扩散模型生成通过将数据从噪声逆向转换而得, 并已成为一种强大的生成建模技术。最近, 矫正流是一种将数据和噪声连接在一条直线上的生成模型表达形式。本研究通过偏向感知相关尺度来改进现有的噪声采样技术, 以训练矫正流模型。通过大规模研究, 我们证明了这种方法相对于已有的扩散公式在高分辨率文本到图像合成方面的优越性能。此外, 我们提出了一种基于Transformer的文本到图像生成架构, 该架构利用了两种模态的不同权重, 并实现了图像和文本记号之间的双向信息流, 从而改善了文本理解、排版和人体偏好评级。我们证明了这种架构遵循可预测的扩展趋势, 并通过各种度量标准和人体评估来证实验证损失越低, 文本到图像合成越好。我们的最大模型超过了现有的最先进模型, 我们将公开我们的实验数据、代码和模型权重。