Video ControlNet：条件图像扩散模型实现时域一致的虚拟到真实视频翻译

May, 2023

Video ControlNet：条件图像扩散模型实现时域一致的虚拟到真实视频翻译

Video ControlNet: Towards Temporally Consistent Synthetic-to-Real Video Translation Using Conditional Image Diffusion Models

HTML

PDF

Ernie Chu, Shuo-Yen Lin, Jun-Cheng Chen

TL;DR本研究提出了一种高效有效的方法，通过利用条件图像扩散模型实现长度可变视频中时间一致的合成到真实视频转换，同时保持视频的时空一致性。我们通过使用可用的合成视频的光流信息，通过联合噪声优化有效地最小化了时空不一致性，实现对多个合成图像生成的平行化。通过在各种综合基准上进行的大量实验证明了我们的方法的有效性，并且我们的方法不需要对扩散模型进行任何培训或微调。最后，我们证明了我们的方法在时空一致性和视觉质量方面均优于其他基线方法。

Abstract

In this study, we present an efficient and effective approach for achieving temporally consistent synthetic-to-real video translation in videos of varying lengths. Our method leverages off-the-shelf conditional image di

发现论文，激发创造

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

图像视频：扩散模型生成高清晰度视频

基于级联的视频扩散模型，Imagen Video是一种文本有条件的视频生成系统，它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型，具有高度的可控性和世界知识，包括生成各种艺术风格的多样化视频和文本动画以及3D对象理解。

Oct, 2022

基于运动条件的扩散模型用于可控视频合成

介绍了一种使用条件扩散模型的视频合成方法（MCDiff），可以通过一组笔画控制视频的内容和动态，达到了良好的视觉效果。

Apr, 2023

基于扩散模型的可控文本到视频生成

本文提出了一种可控的文本到视频模型，名为Video-ControlNet，它可以生成由控制信号（如边缘或深度图）条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验，并生成具有细粒度控制的高质量和连贯视频。

May, 2023

零样本文本指导的视频到视频转换

本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Jun, 2023

VideoControlNet：一个使用控制网络的扩散模型的运动引导视频到视频翻译框架

通过使用具有控制网络的扩散模型，在给定提示和输入视频的条件下，我们提出了一种新的运动引导视频到视频转换框架VideoControlNet，以生成各种视频。通过使用运动信息来防止冗余区域的再生成以保持内容一致性。

Jul, 2023

MeDM：基于时间对应指导的图像扩散模型的视频到视频翻译

本研究介绍了一种高效有效的方法，MeDM，利用预训练的图像扩散模型进行视频到视频的翻译，保持一致的时间流。该提出的框架可以从场景位置信息（如常规G缓冲区）渲染视频，或对在真实场景中捕获的视频进行文本引导编辑。我们采用显式光流构建了一种实用编码方式，对生成的帧施加物理约束并调节独立的逐帧评分。通过利用这种编码，确保生成的视频在时间上保持一致可以被看作是一个具有闭合形式解的优化问题。为确保与稳定扩散的兼容性，我们还提出了一种方法修改潜在空间扩散模型中的观察空间评分。值得注意的是，MeDM不需要对扩散模型进行微调或测试时优化。通过对各种基准测试进行广泛的定性、定量和主观实验证明了该方法的有效性和优越性。

Aug, 2023

潜在变形：用于零样本视频到视频翻译的一致性扩散潜变量

通过图像扩散模型的生成能力，我们提出了一种名为LatentWarp的新的零样本视频-视频翻译框架，通过约束查询令牌的时间一致性，在潜在空间中进一步结合了变形操作以约束查询令牌，从而实现了生成视频的视觉时间相干性的提升。

Nov, 2023

稳定的视频扩散：将潜在视频扩散模型扩展到大型数据集

我们提出了稳定的视频扩散-一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。

Nov, 2023

高分辨率视频的时间一致性扩展扩散模型

通过文本引导的潜在扩散框架，实现视频升尺度，并在保持时域一致性和质量平衡之间提供更大灵活性。

Dec, 2023