该研究将 LDM 范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将 LDM 应用于文本到视频模型中。
Apr, 2023
通过复用和扩散的框架 VidRD,使用潜在扩散模型(LDM)和自编码器实现文本到视频生成,获得了良好的定量和定性结果。
Sep, 2023
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
我们提出了稳定的视频扩散 - 一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。
Nov, 2023
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
通过将流匹配引入扩散模型和卷积解码器之间,结合扩散模型的多样性、流匹配的高效性和卷积解码器的有效性,我们实现了最先进的高分辨率图像合成。
Dec, 2023
利用潜在一致性模型(LCMs)解决迭代抽样过程在高分辨率图像合成中的计算负担和生成速度慢的问题,LCMs 通过直接预测导引反向扩散过程的 ODE 解决方案在潜空间中,实现了快速、高保真度的采样。
Oct, 2023
本文提出了一种使用基于新颖潜在流扩散模型(LFDM)的方法,旨在从给定的图像和条件(例如笑容)中合成一个新的合理视频,该模型可以更好地综合空间细节和时间动作。
Mar, 2023
提出了一种基于 Motion Generation 的视频生成方法,通过 Latent Motion Generation 和 Video Reconstruction 实现视频生成的可控性,采用了 LaMD 框架,包括 Motion-decomposed Video Autoencoder 和 Diffusion-based Motion Generator 两部分,实现了高质量、宽泛的运动生成,并在多个基准数据集上创造了新的最先进的性能。
研究训练以潜在空间作为输入的 LDM 的方法,与传统的 Diffusion Models 相比,通过使用预训练的自动编码器将高维像素空间降为低维潜在空间,大大提高了训练效率,并使用隐私保护的方式对不同维度的注意力模型进行训练以减少可调参数,最终的实验结果表明该方法在生成高质量合成图像时表现突出。
May, 2023