通过遮罩扩散实现的互动视频生成

Dec, 2023

通过遮罩扩散实现的互动视频生成

PEEKABOO: Interactive Video Generation via Masked-Diffusion

Yash Jain, Anshul Nasery, Vibhav Vineet, Harkirat Behl

TL;DR最近，在文本到视频生成方面取得了很大的进展，目前的模型能够生成高质量、逼真的视频。然而，这些模型缺乏用户交互控制和生成视频的能力，这可能开启新的应用领域。本论文提出了一种通过扩展性 - 自适应控制来加强扩散型视频生成模型的输出的方法。该模块是一种训练免费、没有推理开销的自定义部件，可以与现有的视频生成模型相结合，实现时空控制。我们还提出了一个用于交互式视频生成任务的评估基准。通过广泛的定性和定量评估，我们证明了 Peekaboo 可以实现视频生成控制，并且在 mIoU 方面超过基准模型的增益高达 3.8 倍。

Abstract

Recently there has been a lot of progress in text-to-video generation, with state-of-the-art models being capable of generating high quality, realistic videos. However, these models lack the capability for users to interactively control and generate videos, which can potentially unlock

text-to-video generation interactive control spatio-temporal control peekaboo evaluation benchmark

发现论文，激发创造

Peekaboo: 文本到图像扩散模型是零样本分割器

本文研究探索在 off-the-shelf 扩散模型的基础上，如何在无需 re-training 的情况下进行语义定位。我们提出了 Peekaboo 方法，使用无监督学习技术在 Pascal VOC 数据集和 RefCOCO 数据集上进行了验证。该方法是第一个能够在开放词汇的情况下实现零检测，并结合了生成模型和语言模型。

Nov, 2022

VideoBooth: 基于扩散的图像引导视频生成

本文介绍了一种使用图像提示进行视频生成的方法，通过粗粒度到细粒度的图像嵌入和细粒度的注意力注入模块，实现了对指定主题的高质量视频生成。

Dec, 2023

针对空间控制文本到图像生成的遮蔽注意力扩散引导

用不需要额外的训练的方法，通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明，所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。

Aug, 2023

视频预测与填充的扩散模型

本文提出了一种名为 RaMViD 的随机掩码视频扩散模型，利用 3D 卷积将图像扩散模型扩展到视频领域，并引入了一种新的训练条件技术，通过改变所用的掩码，能够实现视频预测、填充和上采样，通过评估 RaMViD 在两个视频预测数据集上的表现，本文证明了该模型达到了最新水平，并提供了高分辨率视频的数据。

Jun, 2022

模块化交互式视频物体分割：交互到掩膜，传播和差异感知融合

提出了一种基于交互的显著性目标分割框架 MiVOS，由交互模块和传播模块组成；其中交互模块实现用户交互和目标分割的转换，而传播模块则采用一种新颖的 top-k 过滤策略，结合时空记忆进行时序传播，并提出了一种差异感知模块以有效地将前后交互的掩模融合，最终在 DAVIS 数据集上取得了优异的表现。

Mar, 2021

文本图像指导的扩散模型用于生成深度伪造的名人互动

通过改进扩散模型以生成可控高质量的深度伪造图像，并使用 Dreambooth 训练提供更真实和个性化的输出图像，该研究展示了以惊人的逼真度创建虚假的视觉内容，并可作为权力政治人物会面的可信证据。

Sep, 2023

MaskINT：通过插值非自回归蒙版变换的视频编辑

这项研究通过在文本为基础的视频编辑过程中分为两个阶段，利用现有的文本到图像扩散模型同时编辑一些关键帧，并引入了一种称为 MaskINT 的高效模型，该模型建立在非自回归的掩膜式生成变压器上，在关键帧之间进行帧插值，从中间帧提供的结构指导中受益。我们进行了一系列实验证明了 MaskINT 相对于其他基于扩散模型的方法的有效性和高效性。该研究为基于文本的视频编辑提供了实用的解决方案，并展示了非自回归的掩膜式生成变压器在该领域中的潜力。

Dec, 2023

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

基于扩散模型的可控文本到视频生成

本文提出了一种可控的文本到视频模型，名为 Video-ControlNet，它可以生成由控制信号（如边缘或深度图）条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验，并生成具有细粒度控制的高质量和连贯视频。

May, 2023

魔我：身份特定视频定制扩散

提出了一个简单而有效的主题身份可控视频生成框架，称为视频定制扩散（VCD）框架，通过强化身份信息提取、注入帧间相关性并使用三个新的关键组件，实现了稳定且高质量的视频生成，对身份保留到很大程度。

Feb, 2024