May, 2024

贪婪增长实现高分辨率像素级扩散模型

TL;DR我们提出了一种非常简单的贪婪生长方法,用于稳定训练大规模、高分辨率模型的像素级图像扩散模型,避免了级联超分辨率组件的需求。实现这一目标的关键在于仔细预训练核心组件,即负责文本到图像对齐和高分辨率渲染的组件。在利用核心模型进行扩展的基础上,我们提出了一种贪婪算法,将架构扩展到高分辨率端到端模型,同时保持预训练表示的完整性,稳定训练过程,并减少对大规模高分辨率数据集的需求。这使得我们能够生成高分辨率图像的单阶段模型,而无需超分辨率级联。我们的主要结果基于公共数据集,表明我们能够训练出高达 80 亿参数的非级联模型,而无需进一步的正则化方案。Vermeer 是我们的完整管道模型,使用内部数据集训练以生成 1024x1024 图像,在 SDXL 上,相较于人类评估者的 21.4%,它被 44.0%的评估者选择。