Feb, 2024

一种廉价的扩展方法:用于高分辨率适应的自级联扩散模型

TL;DR本文提出了一种新颖的自级联扩散模型,通过利用低分辨率模型的丰富知识快速适应高分辨率图像和视频生成,使用无需调优或廉价上采样器调优范例。该自级联扩散模型整合了一系列多尺度上采样器模块,可以有效地适应更高的分辨率,保持原始组合和生成能力。我们进一步提出了一种基于中心引导的噪声重新调度策略,以加快推理过程并提高局部结构细节。与完全微调相比,我们的方法在训练速度上提高了 5 倍,并且仅需要额外的 0.002M 调优参数。广泛的实验表明,我们的方法可以通过仅仅进行 10k 步的微调,快速适应更高分辨率的图像和视频合成,几乎不需要额外的推理时间。