一种廉价的扩展方法：用于高分辨率适应的自级联扩散模型

Feb, 2024

一种廉价的扩展方法：用于高分辨率适应的自级联扩散模型

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

Lanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun...

TL;DR本文提出了一种新颖的自级联扩散模型，通过利用低分辨率模型的丰富知识快速适应高分辨率图像和视频生成，使用无需调优或廉价上采样器调优范例。该自级联扩散模型整合了一系列多尺度上采样器模块，可以有效地适应更高的分辨率，保持原始组合和生成能力。我们进一步提出了一种基于中心引导的噪声重新调度策略，以加快推理过程并提高局部结构细节。与完全微调相比，我们的方法在训练速度上提高了 5 倍，并且仅需要额外的 0.002M 调优参数。广泛的实验表明，我们的方法可以通过仅仅进行 10k 步的微调，快速适应更高分辨率的图像和视频合成，几乎不需要额外的推理时间。

Abstract

diffusion models have proven to be highly effective in image and video generation; however, they still face composition challenges when generating images of varying sizes due to single-scale training data. Adapting large pre-trained →

diffusion models image and video generation higher resolution self-cascade diffusion model upsampler tuning paradigms

发现论文，激发创造

ScaleCrafter：使用扩散模型进行零调节高分辨率视觉生成

通过重新扩张限制性卷积感知域以及引入分散卷积和抑噪无监督引导的方法，无需任何训练或优化，实现了超高分辨率图像生成，并解决了物体重复和不合理结构的问题，表现出卓越的性能。此外，该方法还提示了低分辨率训练模型可以直接用于高分辨率图像生成的可能性，为未来的超高分辨率图像合成研究提供了新的思路。

Oct, 2023

上采样引导：无需训练即可扩大扩散模型规模

通过在采样过程中添加单个项，不需要额外的训练或依赖外部模型，我们提出了升采样引导技术，将预先训练的扩散模型（如 $512^2$）适应于生成更高分辨率的图像（如 $1536^2$）。我们发现合适的引导尺度选择可以改善图像质量、保真度和快速对齐。

Apr, 2024

级联扩散模型用于高保真图像生成

通过级联扩散模型和条件增强，我们成功的在 class-conditional ImageNet generation benchmark 上生成了高保真图像，并取得了优越的 FID scores 和分类精度。

May, 2021

高分辨率视频生成的分层补丁扩散模型

扩散模型在图像和视频合成方面表现出了卓越的性能，但将其扩展到高分辨率输入是具有挑战性的，并且需要将扩散流程重组为多个独立组件，限制了可伸缩性并复杂化了下游应用。

Jun, 2024

贪婪增长实现高分辨率像素级扩散模型

我们提出了一种非常简单的贪婪生长方法，用于稳定训练大规模、高分辨率模型的像素级图像扩散模型，避免了级联超分辨率组件的需求。实现这一目标的关键在于仔细预训练核心组件，即负责文本到图像对齐和高分辨率渲染的组件。在利用核心模型进行扩展的基础上，我们提出了一种贪婪算法，将架构扩展到高分辨率端到端模型，同时保持预训练表示的完整性，稳定训练过程，并减少对大规模高分辨率数据集的需求。这使得我们能够生成高分辨率图像的单阶段模型，而无需超分辨率级联。我们的主要结果基于公共数据集，表明我们能够训练出高达 80 亿参数的非级联模型，而无需进一步的正则化方案。Vermeer 是我们的完整管道模型，使用内部数据集训练以生成 1024x1024 图像，在 SDXL 上，相较于人类评估者的 21.4％，它被 44.0％的评估者选择。

May, 2024

高分辨率视频的时间一致性扩展扩散模型

通过文本引导的潜在扩散框架，实现视频升尺度，并在保持时域一致性和质量平衡之间提供更大灵活性。

Dec, 2023

DiffuseHigh: 基于结构引导的无训练渐进式高分辨率图像合成

现有大规模扩散模型受限于生成 1K 分辨率图像，本文提出基于渐进方法的创新研究，在不增加额外训练成本的情况下，利用低分辨率图像辅助生成高分辨率图像，实现了对生成模型超越原有能力的探索和验证。

Jun, 2024

多尺度扩散频域精化超分辨率

提出了一种新颖的基于频域引导的多尺度扩散模型（FDDiff），该模型通过细化的步骤将高频信息的补充过程分解为更精细的步骤，使用小波包频域链提供多尺度的中间目标，以逐步补充缺失的高频细节，并利用多尺度频率细化网络在一个统一的网络中预测所需的多尺度高频成分，通过对流模型在图像超分辨率任务中生成高质量图像，并在广泛的评估中展示了其优于先前的生成方法的结果。

May, 2024

莫特里卡扩散模型

引入了 Matryoshka Diffusion Models（MDM），这是一种用于高分辨率图像和视频合成的端到端框架。通过在多个分辨率上联合去噪输入，使用嵌套 UNet 架构和从低到高分辨率的渐进式训练安排，实现了高分辨率生成的显著优化改进。在各种基准测试中展示了该方法的有效性，包括类别条件图像生成、高分辨率文本到图像以及文本到视频应用。在仅包含 1200 万张图像的 CC12M 数据集上，我们可以训练一个单一像素空间模型，分辨率达到 1024x1024 像素，并展现了强大的零样本泛化能力。

Oct, 2023

只需一个步骤：稳定扩散通过尺度蒸馏的快速超分辨率

本文介绍了 YONOS-SR，一种新的稳定的基于扩散的图像超分辨率方法，仅使用一次 DDIM 步骤即可获得最先进的结果。通过提出一种新颖的尺度蒸馏方法来训练我们的 SR 模型，我们将 SR 问题简化为教师模型在较小放大尺度上的训练。在训练过程中，我们使用教师的预测作为目标来训练较高放大尺度的学生模型，并通过迭代重复该过程，直到达到最终模型的目标尺度。我们实验证明，蒸馏模型明显优于直接训练高放大尺度的模型，在推断过程中只需要少量步骤。拥有只需一步的强大扩散模型使我们能够冻结 U-Net，并在其上微调解码器。我们展示了经过空间蒸馏的 U-Net 和经过微调的解码器的组合比需要 200 步的最先进方法仅使用单次步骤更为优越。

Jan, 2024