高分辨率视频生成的分层补丁扩散模型
Pyramid Diffusion Model (PDM) 通过金字塔潜在表示提供了更广泛的设计空间,以实现超高分辨率图像合成,结合空间通道注意力和 Res-Skip 连接,以及谱范数和递减的 Dropout 策略,使得 PDM 在生成任务方面具有更强的能力,首次成功合成了 2K 分辨率的图像。
Mar, 2024
本文提出了一种新颖的自级联扩散模型,通过利用低分辨率模型的丰富知识快速适应高分辨率图像和视频生成,使用无需调优或廉价上采样器调优范例。该自级联扩散模型整合了一系列多尺度上采样器模块,可以有效地适应更高的分辨率,保持原始组合和生成能力。我们进一步提出了一种基于中心引导的噪声重新调度策略,以加快推理过程并提高局部结构细节。与完全微调相比,我们的方法在训练速度上提高了 5 倍,并且仅需要额外的 0.002M 调优参数。广泛的实验表明,我们的方法可以通过仅仅进行 10k 步的微调,快速适应更高分辨率的图像和视频合成,几乎不需要额外的推理时间。
Feb, 2024
引入了 Matryoshka Diffusion Models(MDM),这是一种用于高分辨率图像和视频合成的端到端框架。通过在多个分辨率上联合去噪输入,使用嵌套 UNet 架构和从低到高分辨率的渐进式训练安排,实现了高分辨率生成的显著优化改进。在各种基准测试中展示了该方法的有效性,包括类别条件图像生成、高分辨率文本到图像以及文本到视频应用。在仅包含 1200 万张图像的 CC12M 数据集上,我们可以训练一个单一像素空间模型,分辨率达到 1024x1024 像素,并展现了强大的零样本泛化能力。
Oct, 2023
我们提出了一种有效的去噪扩散模型,用于生成高分辨率图像 (例如 1024x512),该模型是在小尺寸图像块 (例如 64x64) 上训练的。我们的算法名为 Patch-DM,其中设计了一种新的特征拼贴策略,以避免合成大尺寸图像时的边界伪影。通过特征拼贴,我们可以系统地裁剪并组合相邻图像块的部分特征来预测移位图像块的特征,从而在图像块特征空间中的重叠区域中实现整个图像的无缝生成。Patch-DM 在我们新收集的自然图像数据集 (1024x512) 以及标准基准较小尺寸 (256x256) 上产生了高质量的图像合成结果,包括 LSUN-Bedroom、LSUN-Church 和 FFHQ。我们将我们的方法与以前的基于图像块的生成方法进行了比较,并在所有四个数据集上获得了最先进的 FID 分数。此外,与经典的扩散模型相比,Patch-DM 还减少了内存复杂度。
Aug, 2023
使用扩散模型的预测能力,在解码器中将多个神经压缩帧转换为连续的视频帧,以实现极端视频压缩,同时考虑感知质量指标,从低比特率下的位每像素(bpp)为 0.02 开始实现视觉上令人满意的重构,结果表明该方案比 H.264 和 H.265 等标准编解码器在低比特率领域具有更好的效果。
Feb, 2024
提出了一种名为投影潜空间扩散模型(PVDM)的新型生成模型,该模型在低维潜空间中学习视频分布,通过自编码器将视频投影为二维形状的潜变量,使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序,能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比,PVDM 在 FVD 评估指标上获得了最高的得分。
Feb, 2023
提出了一种名为 Patch Diffusion 的通用 Patch-wise 训练框架,其核心创新是新的条件分数函数,它在原始图像的 Patch 级别包括 Patch 位置作为附加坐标通道,并且通过训练在多个尺度上对 Patch 大小进行随机和多样化,从而达到显著减少训练时间成本同时提高数据效率以帮助更广泛的用户学习扩散模型。
Apr, 2023
通过利用并行处理和分布式计算,我们提出了 DistriFusion 方法以应对扩散模型在生成高分辨率图像时面临的计算资源和延迟的挑战。DistriFusion 方法能够以较低的质量损失,在多个 GPU 上实现高效率的图像生成,并通过异步通信以及计算流水线的方式实现了高达 6.1 倍的速度提升。
Feb, 2024
本文提出了一种名为 VideoFusion 的方法,通过分解噪声来处理视频数据,并采用两个联合学习的网络来匹配噪声分解,提高了视频生成的质量,并且还证明了分解噪声公式可以受益于预训练的图像扩散模型和文本条件下的视频生成。
Mar, 2023
通过重新扩张限制性卷积感知域以及引入分散卷积和抑噪无监督引导的方法,无需任何训练或优化,实现了超高分辨率图像生成,并解决了物体重复和不合理结构的问题,表现出卓越的性能。此外,该方法还提示了低分辨率训练模型可以直接用于高分辨率图像生成的可能性,为未来的超高分辨率图像合成研究提供了新的思路。
Oct, 2023