Nov, 2023

VIDiff: 多模态指令扩散模型的视频翻译

TL;DR我们提出了 Video Instruction Diffusion(VIDiff),这是一个统一的基础模型,专为广泛的视频任务设计,包括理解任务(如语言引导的视频对象分割)和生成任务(视频编辑和增强)。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果,并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。