上采样引导:无需训练即可扩大扩散模型规模
本文提出了一种新颖的自级联扩散模型,通过利用低分辨率模型的丰富知识快速适应高分辨率图像和视频生成,使用无需调优或廉价上采样器调优范例。该自级联扩散模型整合了一系列多尺度上采样器模块,可以有效地适应更高的分辨率,保持原始组合和生成能力。我们进一步提出了一种基于中心引导的噪声重新调度策略,以加快推理过程并提高局部结构细节。与完全微调相比,我们的方法在训练速度上提高了 5 倍,并且仅需要额外的 0.002M 调优参数。广泛的实验表明,我们的方法可以通过仅仅进行 10k 步的微调,快速适应更高分辨率的图像和视频合成,几乎不需要额外的推理时间。
Feb, 2024
现有大规模扩散模型受限于生成 1K 分辨率图像,本文提出基于渐进方法的创新研究,在不增加额外训练成本的情况下,利用低分辨率图像辅助生成高分辨率图像,实现了对生成模型超越原有能力的探索和验证。
Jun, 2024
通过重新扩张限制性卷积感知域以及引入分散卷积和抑噪无监督引导的方法,无需任何训练或优化,实现了超高分辨率图像生成,并解决了物体重复和不合理结构的问题,表现出卓越的性能。此外,该方法还提示了低分辨率训练模型可以直接用于高分辨率图像生成的可能性,为未来的超高分辨率图像合成研究提供了新的思路。
Oct, 2023
我们提出了一种非常简单的贪婪生长方法,用于稳定训练大规模、高分辨率模型的像素级图像扩散模型,避免了级联超分辨率组件的需求。实现这一目标的关键在于仔细预训练核心组件,即负责文本到图像对齐和高分辨率渲染的组件。在利用核心模型进行扩展的基础上,我们提出了一种贪婪算法,将架构扩展到高分辨率端到端模型,同时保持预训练表示的完整性,稳定训练过程,并减少对大规模高分辨率数据集的需求。这使得我们能够生成高分辨率图像的单阶段模型,而无需超分辨率级联。我们的主要结果基于公共数据集,表明我们能够训练出高达 80 亿参数的非级联模型,而无需进一步的正则化方案。Vermeer 是我们的完整管道模型,使用内部数据集训练以生成 1024x1024 图像,在 SDXL 上,相较于人类评估者的 21.4%,它被 44.0%的评估者选择。
May, 2024
通过级联扩散模型和条件增强,我们成功的在 class-conditional ImageNet generation benchmark 上生成了高保真图像,并取得了优越的 FID scores 和分类精度。
May, 2021
本文介绍了一种基于 Markovian 过程的 Upsampling Diffusion Probabilistic Model(UDPM),相较于传统的 Denoising Diffusion Probabilistic Models(DDPM),它在降低潜变量维度的同时,仅需 7 个扩散步骤即可生成 $256 imes 256$ 的高清图像。
May, 2023
本文系统评估了扩散模型生成图像的现有方法,并研究了新的扩展方式以评估它们对数据增强的益处。作者发现,将扩散模型个性化到目标数据的方法优于简单的提示策略,但使用扩散模型的训练数据,通过简单的最近邻检索程序,直接提高下游性能。此项研究揭示了扩散模型在数据增强方面的局限性,同时也突显了其在生成新训练数据方面的潜力,以提高在简单的下游视觉任务中的性能。
Apr, 2023
通过引入单向注意力机制和 DiT 结构,我们提出了一种自适应调整推理过程中的内存负荷和处理全局依赖性的无限超分模型,实验结果表明,在生成超高分辨率图像方面,我们的模型在机器和人类评估方面都达到了最先进的性能。与常用的 UNet 结构相比,在生成 4096*4096 图像时,我们的模型可以节省超过 5 倍的内存。
May, 2024