上采样引导：无需训练即可扩大扩散模型规模

Apr, 2024

上采样引导：无需训练即可扩大扩散模型规模

Upsample Guidance: Scale Up Diffusion Models without Training

Juno Hwang, Yong-Hyun Park, Junghyo Jo

TL;DR通过在采样过程中添加单个项，不需要额外的训练或依赖外部模型，我们提出了升采样引导技术，将预先训练的扩散模型（如 $512^2$）适应于生成更高分辨率的图像（如 $1536^2$）。我们发现合适的引导尺度选择可以改善图像质量、保真度和快速对齐。

Abstract

diffusion models have demonstrated superior performance across various generative tasks including images, videos, and audio. However, they encounter difficulties in directly generating high-resolution samples. Pr

diffusion models high-resolution samples upsample guidance pre-trained models image quality

发现论文，激发创造

一种廉价的扩展方法：用于高分辨率适应的自级联扩散模型

本文提出了一种新颖的自级联扩散模型，通过利用低分辨率模型的丰富知识快速适应高分辨率图像和视频生成，使用无需调优或廉价上采样器调优范例。该自级联扩散模型整合了一系列多尺度上采样器模块，可以有效地适应更高的分辨率，保持原始组合和生成能力。我们进一步提出了一种基于中心引导的噪声重新调度策略，以加快推理过程并提高局部结构细节。与完全微调相比，我们的方法在训练速度上提高了 5 倍，并且仅需要额外的 0.002M 调优参数。广泛的实验表明，我们的方法可以通过仅仅进行 10k 步的微调，快速适应更高分辨率的图像和视频合成，几乎不需要额外的推理时间。

Feb, 2024

DiffuseHigh: 基于结构引导的无训练渐进式高分辨率图像合成

现有大规模扩散模型受限于生成 1K 分辨率图像，本文提出基于渐进方法的创新研究，在不增加额外训练成本的情况下，利用低分辨率图像辅助生成高分辨率图像，实现了对生成模型超越原有能力的探索和验证。

Jun, 2024

ScaleCrafter：使用扩散模型进行零调节高分辨率视觉生成

通过重新扩张限制性卷积感知域以及引入分散卷积和抑噪无监督引导的方法，无需任何训练或优化，实现了超高分辨率图像生成，并解决了物体重复和不合理结构的问题，表现出卓越的性能。此外，该方法还提示了低分辨率训练模型可以直接用于高分辨率图像生成的可能性，为未来的超高分辨率图像合成研究提供了新的思路。

Oct, 2023

贪婪增长实现高分辨率像素级扩散模型

我们提出了一种非常简单的贪婪生长方法，用于稳定训练大规模、高分辨率模型的像素级图像扩散模型，避免了级联超分辨率组件的需求。实现这一目标的关键在于仔细预训练核心组件，即负责文本到图像对齐和高分辨率渲染的组件。在利用核心模型进行扩展的基础上，我们提出了一种贪婪算法，将架构扩展到高分辨率端到端模型，同时保持预训练表示的完整性，稳定训练过程，并减少对大规模高分辨率数据集的需求。这使得我们能够生成高分辨率图像的单阶段模型，而无需超分辨率级联。我们的主要结果基于公共数据集，表明我们能够训练出高达 80 亿参数的非级联模型，而无需进一步的正则化方案。Vermeer 是我们的完整管道模型，使用内部数据集训练以生成 1024x1024 图像，在 SDXL 上，相较于人类评估者的 21.4％，它被 44.0％的评估者选择。

May, 2024

级联扩散模型用于高保真图像生成

通过级联扩散模型和条件增强，我们成功的在 class-conditional ImageNet generation benchmark 上生成了高保真图像，并取得了优越的 FID scores 和分类精度。

May, 2021

高分辨率视频的时间一致性扩展扩散模型

通过文本引导的潜在扩散框架，实现视频升尺度，并在保持时域一致性和质量平衡之间提供更大灵活性。

Dec, 2023

关于引导式扩散模型的精馏

本文介绍了一种将分类器自由引导扩散模型蒸馏为更快采样的方法，以减少推理时间，并取得了与原始模型相当的图像有效性。

Oct, 2022

UDPM: 上采样扩散概率模型

本文介绍了一种基于 Markovian 过程的 Upsampling Diffusion Probabilistic Model（UDPM），相较于传统的 Denoising Diffusion Probabilistic Models（DDPM），它在降低潜变量维度的同时，仅需 7 个扩散步骤即可生成 $256 imes 256$ 的高清图像。

May, 2023

扩增模型与检索中的数据增强视角

本文系统评估了扩散模型生成图像的现有方法，并研究了新的扩展方式以评估它们对数据增强的益处。作者发现，将扩散模型个性化到目标数据的方法优于简单的提示策略，但使用扩散模型的训练数据，通过简单的最近邻检索程序，直接提高下游性能。此项研究揭示了扩散模型在数据增强方面的局限性，同时也突显了其在生成新训练数据方面的潜力，以提高在简单的下游视觉任务中的性能。

Apr, 2023

Inf-DiT: 用内存高效的扩散变换方法上采样任意分辨率图像

通过引入单向注意力机制和 DiT 结构，我们提出了一种自适应调整推理过程中的内存负荷和处理全局依赖性的无限超分模型，实验结果表明，在生成超高分辨率图像方面，我们的模型在机器和人类评估方面都达到了最先进的性能。与常用的 UNet 结构相比，在生成 4096*4096 图像时，我们的模型可以节省超过 5 倍的内存。

May, 2024