TI2V-Zero: 文本到视频扩散模型中的零样本图像调节

CVPRApr, 2024

TI2V-Zero: 文本到视频扩散模型中的零样本图像调节

TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models

Haomiao Ni, Bernhard Egger, Suhas Lohit, Anoop Cherian, Ye Wang...

TL;DR提出了 TI2V-Zero：一种无需优化或微调的零样本方法，通过使用预训练的文本到视频扩散模型，使其能够在给定图像的条件下生成实际视频。该方法使用 “重复滑动” 策略来引导视频生成，并提供了一种保持视觉细节的新合成帧初始化和重新采样技术，从而实现视频的逐帧合成。TI2V-Zero 在领域特定和开放领域数据集上的实验证明了其优越性能，并且能够无缝扩展到其他任务和支持长视频生成。

Abstract

text-conditioned image-to-video generation (TI2V) aims to synthesize a realistic video starting from a given image (e.g., a woman's photo) and a text description (e.g., "a woman is drinking water."). Existing TI2V frameworks often require costly training on video-text datasets and spec

text-conditioned image-to-video generation ti2v-zero pretrained text-to-video diffusion model repeat-and-slide strategy autoregressive design

发现论文，激发创造

AnimateZero：视频扩散模型能进行零样动画生成

通过解耦视频为特定外观与相应动作的图像动画，我们提出了 AnimateZero 来揭示预训练的文本到视频扩散模型 AnimateDiff，并为其提供更精确的外观和动作控制能力。Anima teZero 无需进一步训练即可成功控制生成进程，对于给定图像，还可以实现多种新应用，包括交互式视频生成和真实图像动画。详细实验表明，该方法在 T2V 和相关应用中具有有效性。

Dec, 2023

Text2AC-Zero：使用 2D 扩散一致合成动画角色

我们提出了一种零样本方法，基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作，并使用其指导文本到图像模型，我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视频，优于现有的零样本文本到视频方法在像素一致性和用户偏好方面。

Dec, 2023

VideoCrafter1：高质量视频生成的开放扩散模型

视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频，而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。

Oct, 2023

VGDiffZero: 文本到图像扩散模型可以进行零射击视觉定位

利用预训练的生成扩散模型直接应用于视觉定位的零阶视觉定位任务，以图文扩散模型为基础设计了一个全面的区域评分方法，证明了其在零阶视觉定位上的强大性能。

Sep, 2023

零样本文本指导的视频到视频转换

本研究提出了一种基于零样本文本引导的视频到视频转换框架来适应图像模型到视频的应用，在形状、纹理和颜色上强制执行分层的跨帧约束，实现低成本下的全局样式和局部纹理的时空一致性。

Jun, 2023

FlowZero：基于 LLM 驱动的动态场景语法的零样本文本到视频合成

Text-to-video generation using FlowZero, a framework that combines Large Language Models (LLMs) with image diffusion models, achieves improvement in zero-shot video synthesis by generating coherent videos with vivid motion.

Nov, 2023

Slicedit: 使用时空切片的文本到图像传扩模型的零样本视频编辑

通过利用预训练的 T2I 扩散模型处理空间和时空切片，我们提出了一种基于文本的视频编辑方法 Slicedit，能够生成保留原始视频结构和动作并满足目标文本的视频，相对于现有竞争方法，我们证明了 Slicedit 在编辑各种真实世界视频方面的明显优势。

May, 2024

文本到图像扩散模型是零样本分类器

通过使用扩散模型的去噪能力作为代理，将零样本分类器应用于 Imagen，探究其知识方面并与 CLIP 进行比较，结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当，同时在形状 / 纹理偏差测试方面取得了最先进的结果，能够成功地执行属性绑定，而 CLIP 则不能。因此，我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。

Mar, 2023

探索预训练的文本到视频传播模型用于视频对象分割

探索了基于预训练的文本到视频 (T2V) 扩散模型产生的视觉表示，在视频理解任务中的应用，通过验证经典的参考视频对象分割 (R-VOS) 任务的假设，介绍了一个名为 “VD-IT” 的新框架，结合了预训练的 T2V 模型，利用文本信息作为条件输入，确保时间上的语义一致性，进一步加入图像标记作为补充文本输入，丰富特征集合以生成详细和细腻的掩码，并且通过大量实验证明，与常用的基于图像 / 视频预训练任务的视频骨干网络（例如 Video Swin Transformer）相比，固定的生成 T2V 扩散模型在保持语义对齐和时间一致性方面具有更好的潜力，在现有的标准基准上，VD-IT 取得了非常有竞争力的结果。

Mar, 2024

视频电梯：用多功能的文本到图像扩散模型提升视频生成质量

Text-to-video diffusion models still lag behind compared to text-to-image models, so this paper introduces VideoElevator, a training-free and plug-and-play method that improves T2V performance using T2I capabilities, specifically by enhancing temporal consistency and adding photo-realistic details for personalized stylistic video synthesis.

Mar, 2024