ResMaster: 通过结构和细粒度指导实现高分辨率图像生成

Jun, 2024

ResMaster: 通过结构和细粒度指导实现高分辨率图像生成

ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance

Shuwei Shi, Wenbo Li, Yuechen Zhang, Jingwen He, Biao Gong...

TL;DRResMaster 是一种无需训练的方法，用于提高分辨率受限的扩散模型生成高质量图像的能力，通过低分辨率参考图像为高分辨率图像提供结构和细致的引导，能够显著减轻局部模式失真并改善细节精化。

Abstract

diffusion models excel at producing high-quality images; however, scaling to higher resolutions, such as 4K, often results in over-smoothed content, structural distortions, and repetitive patterns. To this end, we introduce →

diffusion models resmaster high-resolution images structural guidance fine-grained guidance

发现论文，激发创造

DiffuseHigh: 基于结构引导的无训练渐进式高分辨率图像合成

现有大规模扩散模型受限于生成 1K 分辨率图像，本文提出基于渐进方法的创新研究，在不增加额外训练成本的情况下，利用低分辨率图像辅助生成高分辨率图像，实现了对生成模型超越原有能力的探索和验证。

Jun, 2024

ScaleCrafter：使用扩散模型进行零调节高分辨率视觉生成

通过重新扩张限制性卷积感知域以及引入分散卷积和抑噪无监督引导的方法，无需任何训练或优化，实现了超高分辨率图像生成，并解决了物体重复和不合理结构的问题，表现出卓越的性能。此外，该方法还提示了低分辨率训练模型可以直接用于高分辨率图像生成的可能性，为未来的超高分辨率图像合成研究提供了新的思路。

Oct, 2023

ResAdapter：扩散模型中的域一致分辨率适配器

通过解决训练领域外分辨率图片生成的困境，我们提出了 Resolution Adapter (ResAdapter)，一个专门为扩散模型设计的领域一致适配器，以生成无限分辨率和宽高比的图片。与其他多分辨率生成方法不同，ResAdapter 直接生成动态分辨率的图片，并在学习了纯分辨率先验知识后，通过与个性化扩散模型配合生成无限分辨率的图片，同时保留其原始风格。全面的实验证明，只需 0.5M 的 ResAdapter 便能处理可灵活设置分辨率的图片，与其他模块兼容，并可集成到其他多分辨率模型中，高效地生成更高分辨率的图片。

Mar, 2024

通过多分辨率扩散模型减轻图像生成中的失真

该研究提出了一种创新的增强扩散模型的方法，通过整合新颖的多分辨率网络和时间相关的层归一化，以提高高保真图像生成的有效性。

Jun, 2024

跨越空间和时间分辨率的桥梁建设：基于变化先验和条件扩散模型的参考图像超分辨率

利用土地覆盖变化的先验信息来指导去噪过程的变化感知扩散模型用于参考图像超分辨率重建，通过将先验信息注入去噪模型，提高未改变区域参考信息的利用和已改变区域语义相关内容的重建，以此来改善模型性能。

Mar, 2024

一种廉价的扩展方法：用于高分辨率适应的自级联扩散模型

本文提出了一种新颖的自级联扩散模型，通过利用低分辨率模型的丰富知识快速适应高分辨率图像和视频生成，使用无需调优或廉价上采样器调优范例。该自级联扩散模型整合了一系列多尺度上采样器模块，可以有效地适应更高的分辨率，保持原始组合和生成能力。我们进一步提出了一种基于中心引导的噪声重新调度策略，以加快推理过程并提高局部结构细节。与完全微调相比，我们的方法在训练速度上提高了 5 倍，并且仅需要额外的 0.002M 调优参数。广泛的实验表明，我们的方法可以通过仅仅进行 10k 步的微调，快速适应更高分辨率的图像和视频合成，几乎不需要额外的推理时间。

Feb, 2024

莫特里卡扩散模型

引入了 Matryoshka Diffusion Models（MDM），这是一种用于高分辨率图像和视频合成的端到端框架。通过在多个分辨率上联合去噪输入，使用嵌套 UNet 架构和从低到高分辨率的渐进式训练安排，实现了高分辨率生成的显著优化改进。在各种基准测试中展示了该方法的有效性，包括类别条件图像生成、高分辨率文本到图像以及文本到视频应用。在仅包含 1200 万张图像的 CC12M 数据集上，我们可以训练一个单一像素空间模型，分辨率达到 1024x1024 像素，并展现了强大的零样本泛化能力。

Oct, 2023

HiDiffusion: 解锁低分辨率训练扩散模型中的高分辨率创造力和效率

我们引入了 HiDiffusion，一个无需调参的框架，由 Resolution-Aware U-Net（RAU-Net）和 Modified Shifted Window Multi-head Self-Attention（MSW-MSA）组成，可以使预训练大型文本到图像扩散模型能够高效生成超越训练图像分辨率的高分辨率图像（例如 1024×1024），并且能够以 40％-60％的推理时间缩短，实现高分辨率图像合成的最新性能。

Nov, 2023

使用潜空间扩散模型使大尺寸逼真图像修复成为可能的 Refusion 技术

本研究旨在提高扩散模型在逼真图像修复中的适用性，特别是在网络架构、噪声水平、降噪步骤、训练图像大小和优化器 / 调度器等多个方面进行改进。我们展示了调节这些超参数可以在失真和感知得分上实现更好的性能，并提出了基于 U-Net 的潜在扩散模型。与以前的潜在扩散模型相比，我们提出的 U-Net 压缩策略更稳定，而且不依赖敌对性优化就能恢复高度准确的图像。我们的模型 Refusion 能够处理大尺寸图像，包括真实世界的阴影去除、HR 不均匀去雾、立体超分辨率和景深效果转换，并在 NTIRE 2023 图像阴影去除挑战赛中获得最佳感知性能和第二名。

Apr, 2023

使用潜在扩散模型和隐式神经解码器进行任意尺度图像生成和上采样

提出了一个新的方法来实现输入图像的超分辨率或从随机噪声生成任意比例的新图像，该方法通过预训练的自动编码器、隐式扩散模型和隐式神经解码器及其学习策略组成。该方法在潜空间中采用扩散过程，与 MLP 在任意比例上的解码器空间相一致，并通过固定解码器反向传播输出图像的错误，提高了输出图像的质量。在广泛的实验中，该方法在图像质量、多样性和尺度一致性等指标方面均优于相关方法，在推理速度和内存使用方面显著优于相关的最新技术。

Mar, 2024