ResMaster: 通过结构和细粒度指导实现高分辨率图像生成
现有大规模扩散模型受限于生成 1K 分辨率图像,本文提出基于渐进方法的创新研究,在不增加额外训练成本的情况下,利用低分辨率图像辅助生成高分辨率图像,实现了对生成模型超越原有能力的探索和验证。
Jun, 2024
通过重新扩张限制性卷积感知域以及引入分散卷积和抑噪无监督引导的方法,无需任何训练或优化,实现了超高分辨率图像生成,并解决了物体重复和不合理结构的问题,表现出卓越的性能。此外,该方法还提示了低分辨率训练模型可以直接用于高分辨率图像生成的可能性,为未来的超高分辨率图像合成研究提供了新的思路。
Oct, 2023
通过解决训练领域外分辨率图片生成的困境,我们提出了 Resolution Adapter (ResAdapter),一个专门为扩散模型设计的领域一致适配器,以生成无限分辨率和宽高比的图片。与其他多分辨率生成方法不同,ResAdapter 直接生成动态分辨率的图片,并在学习了纯分辨率先验知识后,通过与个性化扩散模型配合生成无限分辨率的图片,同时保留其原始风格。全面的实验证明,只需 0.5M 的 ResAdapter 便能处理可灵活设置分辨率的图片,与其他模块兼容,并可集成到其他多分辨率模型中,高效地生成更高分辨率的图片。
Mar, 2024
利用土地覆盖变化的先验信息来指导去噪过程的变化感知扩散模型用于参考图像超分辨率重建,通过将先验信息注入去噪模型,提高未改变区域参考信息的利用和已改变区域语义相关内容的重建,以此来改善模型性能。
Mar, 2024
本文提出了一种新颖的自级联扩散模型,通过利用低分辨率模型的丰富知识快速适应高分辨率图像和视频生成,使用无需调优或廉价上采样器调优范例。该自级联扩散模型整合了一系列多尺度上采样器模块,可以有效地适应更高的分辨率,保持原始组合和生成能力。我们进一步提出了一种基于中心引导的噪声重新调度策略,以加快推理过程并提高局部结构细节。与完全微调相比,我们的方法在训练速度上提高了 5 倍,并且仅需要额外的 0.002M 调优参数。广泛的实验表明,我们的方法可以通过仅仅进行 10k 步的微调,快速适应更高分辨率的图像和视频合成,几乎不需要额外的推理时间。
Feb, 2024
引入了 Matryoshka Diffusion Models(MDM),这是一种用于高分辨率图像和视频合成的端到端框架。通过在多个分辨率上联合去噪输入,使用嵌套 UNet 架构和从低到高分辨率的渐进式训练安排,实现了高分辨率生成的显著优化改进。在各种基准测试中展示了该方法的有效性,包括类别条件图像生成、高分辨率文本到图像以及文本到视频应用。在仅包含 1200 万张图像的 CC12M 数据集上,我们可以训练一个单一像素空间模型,分辨率达到 1024x1024 像素,并展现了强大的零样本泛化能力。
Oct, 2023
我们引入了 HiDiffusion,一个无需调参的框架,由 Resolution-Aware U-Net(RAU-Net)和 Modified Shifted Window Multi-head Self-Attention(MSW-MSA)组成,可以使预训练大型文本到图像扩散模型能够高效生成超越训练图像分辨率的高分辨率图像(例如 1024×1024),并且能够以 40%-60%的推理时间缩短,实现高分辨率图像合成的最新性能。
Nov, 2023
本研究旨在提高扩散模型在逼真图像修复中的适用性,特别是在网络架构、噪声水平、降噪步骤、训练图像大小和优化器 / 调度器等多个方面进行改进。我们展示了调节这些超参数可以在失真和感知得分上实现更好的性能,并提出了基于 U-Net 的潜在扩散模型。与以前的潜在扩散模型相比,我们提出的 U-Net 压缩策略更稳定,而且不依赖敌对性优化就能恢复高度准确的图像。我们的模型 Refusion 能够处理大尺寸图像,包括真实世界的阴影去除、HR 不均匀去雾、立体超分辨率和景深效果转换,并在 NTIRE 2023 图像阴影去除挑战赛中获得最佳感知性能和第二名。
Apr, 2023
提出了一个新的方法来实现输入图像的超分辨率或从随机噪声生成任意比例的新图像,该方法通过预训练的自动编码器、隐式扩散模型和隐式神经解码器及其学习策略组成。该方法在潜空间中采用扩散过程,与 MLP 在任意比例上的解码器空间相一致,并通过固定解码器反向传播输出图像的错误,提高了输出图像的质量。在广泛的实验中,该方法在图像质量、多样性和尺度一致性等指标方面均优于相关方法,在推理速度和内存使用方面显著优于相关的最新技术。
Mar, 2024