高保真图像到视频生成的无需调参噪声矫正

Mar, 2024

高保真图像到视频生成的无需调参噪声矫正

Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation

Weijie Li, Litong Gong, Yiran Zhu, Fanda Fan, Biao Wang...

TL;DR提出了一种用于图像到视频生成的方法，通过添加更多精确的图像信息和噪声修正，提高生成视频的保真度。

Abstract

Image-to-video (I2V) generation tasks always suffer from keeping high fidelity in the open domains. Traditional image animation techniques primarily focus on specific domains such as faces or human poses, making them difficult to generalize to open domains. Several recent I2V framework

image-to-video generation fidelity diffusion models image details noise rectification

发现论文，激发创造

高保真基于扩散的图像编辑

扩散模型在图像生成和编辑领域取得了显著的成功。我们提出了一种创新的框架，其中包含一个修正模块，用残差特征调节扩散模型权重，以填补编辑过程中准确性的差距。此外，我们引入了一种新的学习范式，旨在在编辑过程中最小化错误传播。通过大量实验证明，我们的提议框架和训练策略在各种去噪步骤下实现了高保真的重建和编辑结果，并在定量指标和质量评估方面表现出色。此外，我们还通过图像到图像的转换和跨领域图像编辑等多个应用探索了模型的泛化能力。

Dec, 2023

DreamVideo: 高保真图像到视频生成（具备图像保留和文本指导）

我们提出了一种高保真度的图像到视频生成方法，通过在预先训练的视频扩散模型上设计一个帧保留分支，名为 DreamVideo，来解决现有方法的局限性，该方法通过卷积层感知参考图像，并将特征与噪声潜在变量连接起来作为模型输入。同时，通过结合无分类器指导的双条件，可以通过提供不同的提示文本将单个图像导向不同动作的视频，使得视频的生成具备精确控制能力。综合实验表明，我们的方法在公开数据集上表现出色，无论是定量还是定性结果都优于现有方法，并且在 UCF101 数据集上相对于其他图像到视频模型具有较强的图像保留能力和高 FVD 得分。更多详细信息和全面结果将在文中进行详细阐述。

Dec, 2023

图像到视频扩散模型中的条件图像泄漏的识别与解决

通过研究发现图像到视频扩散模型中的条件图像泄漏问题，提出了适用于生成更具动态和自然运动的视频的插拔策略。

Jun, 2024

优化噪声追求以增强文本到视频生成

通过使用基于扩散模型建立的噪声 - 视频映射，由搜索 - 反转流程逼近文本输入的最佳噪声，同时通过一个语义保持改写器来丰富文本提示，实现文本到视频模型的有效优化。

Nov, 2023

可控的带扩散模型的长图像动画

在计算机视觉中，从静态图像生成逼真的动画视频是一个重要的研究领域。本文介绍了一种基于运动先验和视频扩散模型的开放领域可控图像动画方法，能够实现对可移动区域的运动方向和速度的精确控制，同时在保持内容、场景和动作协调一致性的同时生成长度超过 100 帧的长时间视频。

May, 2024

SF-V：单向视频生成模型

通过对预训练的视频扩散模型进行对抗训练，我们提出了一种新颖的方法，通过单步合成高质量视频来获得单步视频生成模型，捕捉视频数据中的时间和空间依赖关系，从而大大减少计算成本，为实时视频合成和编辑铺平了道路。

Jun, 2024

VideoCrafter1：高质量视频生成的开放扩散模型

视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频，而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。

Oct, 2023

FreeNoise：无需调整的长视频扩散通过噪音重新调度

利用大规模视频数据集和扩散模型的进展，本研究通过引入多个文本条件，拓展了文本驱动视频生成模型的生成能力，解决了现有模型在生成高保真长视频和针对多文本条件的支持方面的局限性。

Oct, 2023

基于扩散模型的带有噪声约束的平滑视频合成：一次性视频调整

通过引入噪声约束和新的视频评估指标，本文改进了现有一次性视频调优方法，在各种基线上产生了更平滑的视频。

Nov, 2023

ZeroSmooth：无需训练的扩散器自适应高帧率视频生成

我们提出了一种对生成式视频扩散模型的训练无关的视频插值方法，通过将视频模型转换为自级联视频扩散模型并结合设计的隐藏状态校正模块，保持关键帧与插值帧之间的时间一致性。在多个受欢迎的视频模型上进行了广泛的评估，证明了该方法的有效性，特别是我们的训练无关方法甚至可以与由大量计算资源和大规模数据集支持的训练插值模型相媲美。

Jun, 2024