VIDiff: 多模态指令扩散模型的视频翻译

Nov, 2023

VIDiff: 多模态指令扩散模型的视频翻译

VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models

Zhen Xing, Qi Dai, Zihao Zhang, Hui Zhang, Han Hu...

TL;DR我们提出了 Video Instruction Diffusion（VIDiff），这是一个统一的基础模型，专为广泛的视频任务设计，包括理解任务（如语言引导的视频对象分割）和生成任务（视频编辑和增强）。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果，并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。

Abstract

diffusion models have achieved significant success in image and video generation. This motivates a growing interest in video editing tasks, where videos are edited according to provided text descriptions. However

diffusion models video editing video tasks video instruction diffusion generative tasks

发现论文，激发创造

Dreamix：视频传播模型是通用视频编辑器

该研究提出了一种基于视频扩散模型的图像和视频编辑方法，利用时序信息和高分辨率信息生成与指导文本匹配的视频，并以完全时间关注和时间关注掩码联合完成模型的微调，实现了较好的编辑效果。

Feb, 2023

EffiVED: 基于文本指令扩散模型的高效视频编辑

EffiVED 是一种基于扩散的高效模型，支持指导视频编辑；采用图像编辑数据集和开放世界视频转化为高质量数据集进行训练；实验证明 EffiVED 生成高质量编辑视频且执行速度快，并且数据收集方法显著改善编辑性能，有望解决视频编辑数据的稀缺问题。

Mar, 2024

AID：适应图像到视频扩散模型用于指导视频预测

基于文本和初始帧，我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构，并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型，我们的方法在四个数据集上明显优于现有技术，证明了其在不同领域的有效性。

Jun, 2024

InstructVid2Vid：自然语言控制视频编辑

本文介绍了一种基于预训练模型和条件式 3D U-Net 结构的、可以通过自然语言指令编辑视频的方法，同时提出了一种新的视帧差异损失函数，可以在训练过程中提高生成视频的时序一致性，实验表明该方法生成的视频质量高、时序连贯，能够进行多种视频编辑操作。

May, 2023

结构和内容引导的扩散模型视频合成

本研究提出一种结构与内容导向的视频扩散模型。训练过程基于单眼深度估计，能够控制结构和内容的保真度，并通过新的指导方法使模型展现明确的时间一致性控制。实验结果表明该模型可以实现对视频特征的精细控制，依据少数参考图像定制化编辑，且用户更倾向于使用该模型的结果。

Feb, 2023

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

BIVDiff：基于图像和视频扩散模型的无需训练的通用视频合成框架

我们提出了一个无需训练的通用视频合成框架，命名为 BIVDiff，通过将特定的图像扩散模型与通用文本到视频基础扩散模型相结合，既实现了强大的任务泛化能力，又具有高效性。

Dec, 2023

VIDM: 视频隐式扩散模型

该研究提出基于扩散模型的视频生成方法，通过隐式条件建模来模拟运动效果，并提出多种策略来优化生成视频的质量。实验证明，该方法在 FVD 得分和视觉质量方面明显优于现有的以生成对抗网络为基础的方法。

Dec, 2022

I2VEdit: 通过图像到视频扩散模型进行首帧引导视频编辑

通过使用预训练的图像到视频模型，我们介绍了一种新颖而通用的方法，将图像编辑工具的适用范围扩展到视频中，通过从单个帧到整个视频的传播编辑来处理全局编辑，局部编辑和适度形状变化，并且通过细粒度的注意力匹配来实现精确的调整，同时采用跳跃间隔策略来减轻多个视频片段之间自回归生成所带来的质量退化。实验结果证明了我们的框架在细粒度视频编辑方面的优异性能，并证明其能够产生高质量、时间上连续的输出。

May, 2024

图像视频：扩散模型生成高清晰度视频

基于级联的视频扩散模型，Imagen Video 是一种文本有条件的视频生成系统，它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型，具有高度的可控性和世界知识，包括生成各种艺术风格的多样化视频和文本动画以及 3D 对象理解。

Oct, 2022