结构和内容引导的扩散模型视频合成

Feb, 2023

结构和内容引导的扩散模型视频合成

Structure and Content-Guided Video Synthesis with Diffusion Models

Patrick Esser, Johnathan Chiu, Parmida Atighehchian, Jonathan Granskog, Anastasis Germanidis

TL;DR本研究提出一种结构与内容导向的视频扩散模型。训练过程基于单眼深度估计，能够控制结构和内容的保真度，并通过新的指导方法使模型展现明确的时间一致性控制。实验结果表明该模型可以实现对视频特征的精细控制，依据少数参考图像定制化编辑，且用户更倾向于使用该模型的结果。

Abstract

Text-guided generative diffusion models unlock powerful image creation and editing tools. While these have been extended to video generation, current approaches that edit the content of existing footage while retaining structure require expensive re-training for every input or rely on

generative diffusion models video editing content and structure-guided diffusion model monocular depth estimation temporal consistency

发现论文，激发创造

生成渲染：可控的 4D 引导视频生成与 2D 扩散模型

通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合，我们提出了一种新的方法来自动化计算机生成的视频的创作过程，并输出高质量和时间上一致的帧。

Dec, 2023

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023

VIDiff: 多模态指令扩散模型的视频翻译

我们提出了 Video Instruction Diffusion（VIDiff），这是一个统一的基础模型，专为广泛的视频任务设计，包括理解任务（如语言引导的视频对象分割）和生成任务（视频编辑和增强）。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果，并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。

Nov, 2023

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

通过同步多帧扩散实现高精细和时间一致的视频风格化

提出了一种基于文本引导的视频风格化方法，通过同步多帧扩散框架来维持视觉细节和时间一致性，实现了视觉细节和时间一致性的生成高质量和多样性的结果。

Nov, 2023

基于运动条件的扩散模型用于可控视频合成

介绍了一种使用条件扩散模型的视频合成方法（MCDiff），可以通过一组笔画控制视频的内容和动态，达到了良好的视觉效果。

Apr, 2023

使用文本和结构指导生成定制视频

本文提出了一种使用文本作为上下文描述和动作结构（例如逐帧深度）作为具体指导的定制视频生成方法，涉及使用先前为静止图像合成预先训练的潜在扩散模型并引入时间模块进行视频生成的联合条件视频生成。实验结果表明，该方法在时间一致性和与用户指导的忠实度方面表现优异，特别是在现有基线模型方面具有更好的性能。

Jun, 2023

EffiVED: 基于文本指令扩散模型的高效视频编辑

EffiVED 是一种基于扩散的高效模型，支持指导视频编辑；采用图像编辑数据集和开放世界视频转化为高质量数据集进行训练；实验证明 EffiVED 生成高质量编辑视频且执行速度快，并且数据收集方法显著改善编辑性能，有望解决视频编辑数据的稀缺问题。

Mar, 2024

基于文本指导的三维人脸合成 -- 从生成到编辑

通过文本引导的三维人脸合成，从生成到编辑的统一框架，通过解耦生成几何和纹理来提高几何细节的生成效果，并利用生成几何作为纹理生成的条件，进一步提升几何与纹理的一致性结果；通过预训练扩散模型来更新面部几何或纹理以实现顺序编辑，并引入 UV 域一致性保持正则化以防止对不相关面部属性的无意更改，并提出自导向一致性权重策略以提高编辑效果与保持一致性；通过全面实验展示了该方法在人脸合成方面的优越性。

Dec, 2023

Diffusion$^2$: 通过正交扩散模型的得分组合生成动态 3D 内容

Diffusion$^2$ 是一种新颖的框架，通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识，直接生成密集的多视图和多帧图像，优化连续性 4D 表示，从而在几分钟内生成 4D 内容。

Apr, 2024