多源潜变扩散模型的视频编辑

Oct, 2023

Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models

Tianyi Lu, Xing Zhang, Jiaxi Gu, Hang Xu, Renjing Pei...

TL;DRFLDM 是第一个将现成的图像编辑方法融入视频 LDM 的视频编辑方法，通过在视频 LDM 中应用现成的图像编辑方法，FLDM 能够改善编辑视频的文字对齐和时间一致性。

Abstract

latent diffusion models (LDMs) are renowned for their powerful capabilities in image and video synthesis. Yet, video editing methods suffer from insufficient pre-training data or video-by-video re-training cost.

latent diffusion models fldm video editing image editing methods temporal consistency

发现论文，激发创造

使用潜变量扩散模型进行高分辨率视频合成的对齐

该研究将 LDM 范例应用于高分辨率视频生成中，利用图像生成器实现视频生成，利用时间维度对视频超分辨率模型进行精细调整，验证其在真实驾驶视频上的表现，且可将 LDM 应用于文本到视频模型中。

Apr, 2023

循环去噪：用于文本到视频生成的迭代式去噪

通过复用和扩散的框架 VidRD，使用潜在扩散模型（LDM）和自编码器实现文本到视频生成，获得了良好的定量和定性结果。

Sep, 2023

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

稳定的视频扩散：将潜在视频扩散模型扩展到大型数据集

我们提出了稳定的视频扩散 - 一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。

Nov, 2023

使用潜在扩散模型进行高分辨率图像合成

通过在预训练的自编码器的潜在空间中应用扩散模型，引入交叉注意力层到模型体系结构中，以更少的计算要求取得接近最优的性能，实现高分辨率合成，缩小像素级 DMs 对计算资源的需求。

Dec, 2021

增强潜在扩散与流匹配

通过将流匹配引入扩散模型和卷积解码器之间，结合扩散模型的多样性、流匹配的高效性和卷积解码器的有效性，我们实现了最先进的高分辨率图像合成。

Dec, 2023

潜在一致性模型：用少量推理步骤合成高分辨率图像

利用潜在一致性模型（LCMs）解决迭代抽样过程在高分辨率图像合成中的计算负担和生成速度慢的问题，LCMs 通过直接预测导引反向扩散过程的 ODE 解决方案在潜空间中，实现了快速、高保真度的采样。

Oct, 2023

具有潜在流动扩散模型的条件图像到视频生成

本文提出了一种使用基于新颖潜在流扩散模型（LFDM）的方法，旨在从给定的图像和条件（例如笑容）中合成一个新的合理视频，该模型可以更好地综合空间细节和时间动作。

Mar, 2023

LaMD：视频生成的潜在运动扩散

提出了一种基于 Motion Generation 的视频生成方法，通过 Latent Motion Generation 和 Video Reconstruction 实现视频生成的可控性，采用了 LaMD 框架，包括 Motion-decomposed Video Autoencoder 和 Diffusion-based Motion Generator 两部分，实现了高质量、宽泛的运动生成，并在多个基准数据集上创造了新的最先进的性能。

Apr, 2023

差分隐私潜在扩散模型

研究训练以潜在空间作为输入的 LDM 的方法，与传统的 Diffusion Models 相比，通过使用预训练的自动编码器将高维像素空间降为低维潜在空间，大大提高了训练效率，并使用隐私保护的方式对不同维度的注意力模型进行训练以减少可调参数，最终的实验结果表明该方法在生成高质量合成图像时表现突出。

May, 2023