通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
FLDM 是第一个将现成的图像编辑方法融入视频 LDM 的视频编辑方法,通过在视频 LDM 中应用现成的图像编辑方法,FLDM 能够改善编辑视频的文字对齐和时间一致性。
Oct, 2023
本文提出了一种在预训练自编码器的潜在空间中应用流匹配的方法,以实现高分辨率图像合成的计算效率和可扩展性的提高,并将各种条件集成到流匹配中进行条件式生成任务,包括标签条件下的图像生成、图像修复和语义到图像的生成。通过大量实验,本方法在各种数据集上均具有定量和定性的有效性,并提供了重构潜在流分布与真实数据分布之间 Wasserstein-2 距离的理论控制。
Jul, 2023
该研究将 LDM 范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将 LDM 应用于文本到视频模型中。
Apr, 2023
研究训练以潜在空间作为输入的 LDM 的方法,与传统的 Diffusion Models 相比,通过使用预训练的自动编码器将高维像素空间降为低维潜在空间,大大提高了训练效率,并使用隐私保护的方式对不同维度的注意力模型进行训练以减少可调参数,最终的实验结果表明该方法在生成高质量合成图像时表现突出。
May, 2023
利用潜在一致性模型(LCMs)解决迭代抽样过程在高分辨率图像合成中的计算负担和生成速度慢的问题,LCMs 通过直接预测导引反向扩散过程的 ODE 解决方案在潜空间中,实现了快速、高保真度的采样。
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
基于动态测量输运的生成模型通过学习常微分方程或随机微分方程,将初始条件从已知基础分布推导到目标分布。我们介绍了流图匹配算法,通过学习潜在常微分方程的双时间流图,得到了一个高效的几步生成模型,其步数可以根据精度和计算成本进行灵活的调节。与扩散模型或随机插值方法相比,流图匹配方法能够以显著降低的采样成本生成高质量样本。
Jun, 2024
扩散模型的实例教学方法和分布教学方法在图像生成模型方面取得了显著的研究成果,提出的分布教学方法在减少训练图像数量的同时取得了最先进的结果,提高了对高效图像生成模型的理解并为各种应用提供了可扩展的框架。
May, 2024
提出了快速扩散模型(FDM),它将扩散模型(DM)的扩散过程从随机优化角度进行改进,以加速训练和采样。实验证明,FDM 可以应用于多种流行的 DM 框架,并在 CIFAR-10、FFHQ 和 AFHQv2 数据集上具有可比的图像合成性能。而且,FDM 通过将采样步骤减少约 3 倍来实现相似的性能,从而将训练成本降低约 50%。
Jun, 2023