TRIP：图像降噪先验的时域残差学习用于图像到视频扩散模型

CVPRMar, 2024

TRIP：图像降噪先验的时域残差学习用于图像到视频扩散模型

TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models

Zhongwei Zhang, Fuchen Long, Yingwei Pan, Zhaofan Qiu, Ting Yao...

TL;DR最近在文本到视频生成方面的进展展示了强大的扩散模型的实用性，但是在将扩散模型应用于静态图像转视频生成（即图像到视频生成）时，这个问题并不简单。悬念源于以下方面：连续动画帧的扩散过程不仅应保持与给定图像的忠实对齐，还应追求相邻帧之间的时间一致性。为了缓解这个问题，我们提出了 TRIP，这是一种新的图像到视频扩散范例，它以从静态图像派生的图像噪声先验为基础，通过引入时间残差学习共同触发帧间关系推理，并简化连贯的时间建模。技术上，图像噪声先验首先通过基于静态图像和带噪视频潜在代码的单步向后扩散过程得到。接下来，TRIP 执行类似残差的双路径方案进行噪声预测：1）一条捷径路径，直接将图像噪声先验作为每帧的参考噪声，以增强第一帧与后续帧之间的对齐；2）一条残差路径，使用基于带噪视频和静态图像潜在代码的 3D-UNet 进行帧间关系推理，从而简化每帧噪声的学习。此外，每帧的参考噪声和残差噪声通过注意机制动态合并，用于最终的视频生成。对 WebVid-10M、DTDB 和 MSR-VTT 数据集上进行的大量实验表明了我们 TRIP 在图像到视频生成中的有效性。

Abstract

Recent advances in text-to-video generation have demonstrated the utility of powerful diffusion models. Nevertheless, the problem is not trivial when shaping →

text-to-video generation diffusion models image-to-video generation trip temporal modeling

发现论文，激发创造

保留自身关联性：一种视频扩散模型的噪声先验

本文提出了一种新的视频综合方法，它使用预训练模型，并使用经过精心设计的视频噪声先验来生成高质量，时域一致的序列帧，获得了在 UCF-101 和 MSR-VTT 基准测试上 SOTA 的无需训练文本到视频结果。同时，在较小的 UCF-101 基准测试中使用更少的计算资源， $10 imes$ 更小的模型，达到了 SOTA 的视频生成质量。

May, 2023

零样本视频恢复与增强：基于预训练图像扩散模型

基于预训练图像扩散模型，提出了用于零样本视频修复和增强的第一种框架，通过在图像扩散模型中使用交叉前一帧注意力层来利用相邻帧之间的时间相关性，进一步提出了时间一致性引导，空间 - 时间噪声共享和早停止采样策略，以实现更好的时间一致性采样，实验结果表明，我们提出的方法在生成具有更好保真度的时间一致视频方面具有优越性。

Jul, 2024

可控的带扩散模型的长图像动画

在计算机视觉中，从静态图像生成逼真的动画视频是一个重要的研究领域。本文介绍了一种基于运动先验和视频扩散模型的开放领域可控图像动画方法，能够实现对可移动区域的运动方向和速度的精确控制，同时在保持内容、场景和动作协调一致性的同时生成长度超过 100 帧的长时间视频。

May, 2024

TiNO-Edit: 时间步长和噪声优化用于稳健扩散式图像编辑

通过对噪音模式和扩散时间步进行优化，本文提出了基于 SD 的 TiNO-Edit 方法，其能够生成与原始图像更加吻合且符合预期结果的编辑结果，同时在 SD 的潜在域中提出了一组新的损失函数来加速优化过程。

Apr, 2024

Video ControlNet：条件图像扩散模型实现时域一致的虚拟到真实视频翻译

本研究提出了一种高效有效的方法，通过利用条件图像扩散模型实现长度可变视频中时间一致的合成到真实视频转换，同时保持视频的时空一致性。我们通过使用可用的合成视频的光流信息，通过联合噪声优化有效地最小化了时空不一致性，实现对多个合成图像生成的平行化。通过在各种综合基准上进行的大量实验证明了我们的方法的有效性，并且我们的方法不需要对扩散模型进行任何培训或微调。最后，我们证明了我们的方法在时空一致性和视觉质量方面均优于其他基线方法。

May, 2023

利用视频序列深度视觉先验进行大气湍流去除

基于自我监督学习的方法能够改善大气湍流扭曲效应，利用深度学习和时空先验能够提高图像质量。

Feb, 2024

DreamVideo: 高保真图像到视频生成（具备图像保留和文本指导）

我们提出了一种高保真度的图像到视频生成方法，通过在预先训练的视频扩散模型上设计一个帧保留分支，名为 DreamVideo，来解决现有方法的局限性，该方法通过卷积层感知参考图像，并将特征与噪声潜在变量连接起来作为模型输入。同时，通过结合无分类器指导的双条件，可以通过提供不同的提示文本将单个图像导向不同动作的视频，使得视频的生成具备精确控制能力。综合实验表明，我们的方法在公开数据集上表现出色，无论是定量还是定性结果都优于现有方法，并且在 UCF101 数据集上相对于其他图像到视频模型具有较强的图像保留能力和高 FVD 得分。更多详细信息和全面结果将在文中进行详细阐述。

Dec, 2023

视频深度先验及其在视频一致性和传播中的应用

本文提出了一种用于盲视频时间一致性的方法，该方法旨在解决仅在每个视频帧上独立应用图像处理算法导致的时间不一致问题。我们展示了通过在 Deep Video Prior（DVP）视频上训练卷积神经网络实现时间一致性的方法，并针对挑战性的多模态不一致性问题提出了一种经过精心设计的迭代加权训练策略。我们通过 7 个计算机视觉任务的广泛定量和感知实验展示了我们的方法的有效性，并证明了我们的方法在盲视频时间一致性方面优于现有技术水平。

Jan, 2022

FreeNoise：无需调整的长视频扩散通过噪音重新调度

利用大规模视频数据集和扩散模型的进展，本研究通过引入多个文本条件，拓展了文本驱动视频生成模型的生成能力，解决了现有模型在生成高保真长视频和针对多文本条件的支持方面的局限性。

Oct, 2023

使用图像扩散模型编辑具有时间一致性的视频

通过建立一个优雅而高效的 TCVE（Temporal-Consistent Video Editing）方法，本研究在大规模文本到图像（T2I）扩散模型的基础上，解决了文本引导视频编辑中的时间不连贯问题，取得了视频时序一致性和编辑能力方面的最新突破，并超越了该领域的现有基准。

Aug, 2023