HiDiffusion: 解锁低分辨率训练扩散模型中的高分辨率创造力和效率

Nov, 2023

HiDiffusion: 解锁低分辨率训练扩散模型中的高分辨率创造力和效率

HiDiffusion: Unlocking High-Resolution Creativity and Efficiency in Low-Resolution Trained Diffusion Models

Shen Zhang, Zhaowei Chen, Zhenyu Zhao, Zhenyuan Chen, Yao Tang...

TL;DR我们引入了 HiDiffusion，一个无需调参的框架，由 Resolution-Aware U-Net（RAU-Net）和 Modified Shifted Window Multi-head Self-Attention（MSW-MSA）组成，可以使预训练大型文本到图像扩散模型能够高效生成超越训练图像分辨率的高分辨率图像（例如 1024×1024），并且能够以 40％-60％的推理时间缩短，实现高分辨率图像合成的最新性能。

Abstract

We introduce hidiffusion, a tuning-free framework comprised of resolution-aware u-net (RAU-Net) and Modified Shifted Window Multi-head Self-Attention (MSW-MSA) to enable pretrained large text-to-image diffusion m

hidiffusion resolution-aware u-net modified shifted window multi-head self-attention image generation high-resolution synthesis

发现论文，激发创造

ScaleCrafter：使用扩散模型进行零调节高分辨率视觉生成

通过重新扩张限制性卷积感知域以及引入分散卷积和抑噪无监督引导的方法，无需任何训练或优化，实现了超高分辨率图像生成，并解决了物体重复和不合理结构的问题，表现出卓越的性能。此外，该方法还提示了低分辨率训练模型可以直接用于高分辨率图像生成的可能性，为未来的超高分辨率图像合成研究提供了新的思路。

Oct, 2023

一种廉价的扩展方法：用于高分辨率适应的自级联扩散模型

本文提出了一种新颖的自级联扩散模型，通过利用低分辨率模型的丰富知识快速适应高分辨率图像和视频生成，使用无需调优或廉价上采样器调优范例。该自级联扩散模型整合了一系列多尺度上采样器模块，可以有效地适应更高的分辨率，保持原始组合和生成能力。我们进一步提出了一种基于中心引导的噪声重新调度策略，以加快推理过程并提高局部结构细节。与完全微调相比，我们的方法在训练速度上提高了 5 倍，并且仅需要额外的 0.002M 调优参数。广泛的实验表明，我们的方法可以通过仅仅进行 10k 步的微调，快速适应更高分辨率的图像和视频合成，几乎不需要额外的推理时间。

Feb, 2024

DiffuseHigh: 基于结构引导的无训练渐进式高分辨率图像合成

现有大规模扩散模型受限于生成 1K 分辨率图像，本文提出基于渐进方法的创新研究，在不增加额外训练成本的情况下，利用低分辨率图像辅助生成高分辨率图像，实现了对生成模型超越原有能力的探索和验证。

Jun, 2024

使用潜空间扩散模型使大尺寸逼真图像修复成为可能的 Refusion 技术

本研究旨在提高扩散模型在逼真图像修复中的适用性，特别是在网络架构、噪声水平、降噪步骤、训练图像大小和优化器 / 调度器等多个方面进行改进。我们展示了调节这些超参数可以在失真和感知得分上实现更好的性能，并提出了基于 U-Net 的潜在扩散模型。与以前的潜在扩散模型相比，我们提出的 U-Net 压缩策略更稳定，而且不依赖敌对性优化就能恢复高度准确的图像。我们的模型 Refusion 能够处理大尺寸图像，包括真实世界的阴影去除、HR 不均匀去雾、立体超分辨率和景深效果转换，并在 NTIRE 2023 图像阴影去除挑战赛中获得最佳感知性能和第二名。

Apr, 2023

利用扩散先验进行实际图像超分辨率

本文介绍了一种新的方法，利用预先训练的文本到图像扩散模型中所包含的先前知识来实现盲超分辨率，并通过引入可控特征包装模块和渐进聚合采样策略来克服扩散模型固定尺寸的限制，实现对任何大小分辨率的适应，并在综合评估中展示了该方法在超分辨率领域的优越性。

May, 2023

通过多分辨率扩散模型减轻图像生成中的失真

该研究提出了一种创新的增强扩散模型的方法，通过整合新颖的多分辨率网络和时间相关的层归一化，以提高高保真图像生成的有效性。

Jun, 2024

贪婪增长实现高分辨率像素级扩散模型

我们提出了一种非常简单的贪婪生长方法，用于稳定训练大规模、高分辨率模型的像素级图像扩散模型，避免了级联超分辨率组件的需求。实现这一目标的关键在于仔细预训练核心组件，即负责文本到图像对齐和高分辨率渲染的组件。在利用核心模型进行扩展的基础上，我们提出了一种贪婪算法，将架构扩展到高分辨率端到端模型，同时保持预训练表示的完整性，稳定训练过程，并减少对大规模高分辨率数据集的需求。这使得我们能够生成高分辨率图像的单阶段模型，而无需超分辨率级联。我们的主要结果基于公共数据集，表明我们能够训练出高达 80 亿参数的非级联模型，而无需进一步的正则化方案。Vermeer 是我们的完整管道模型，使用内部数据集训练以生成 1024x1024 图像，在 SDXL 上，相较于人类评估者的 21.4％，它被 44.0％的评估者选择。

May, 2024

Inf-DiT: 用内存高效的扩散变换方法上采样任意分辨率图像

通过引入单向注意力机制和 DiT 结构，我们提出了一种自适应调整推理过程中的内存负荷和处理全局依赖性的无限超分模型，实验结果表明，在生成超高分辨率图像方面，我们的模型在机器和人类评估方面都达到了最先进的性能。与常用的 UNet 结构相比，在生成 4096*4096 图像时，我们的模型可以节省超过 5 倍的内存。

May, 2024

金字塔扩散模型的超高分辨率图像合成

Pyramid Diffusion Model (PDM) 通过金字塔潜在表示提供了更广泛的设计空间，以实现超高分辨率图像合成，结合空间通道注意力和 Res-Skip 连接，以及谱范数和递减的 Dropout 策略，使得 PDM 在生成任务方面具有更强的能力，首次成功合成了 2K 分辨率的图像。

Mar, 2024

DiM: 高效高分辨率图像合成的扩散灰曼巴

提出了一种结合了 Mamba 和扩散模型的高效高分辨率图像合成方法 DiM，使用 ``weak-to-strong'' 训练策略和无需进一步微调的上采样策略提高训练和推理效率。

May, 2024