AID:适应图像到视频扩散模型用于指导视频预测
我们提出了 Video Instruction Diffusion(VIDiff),这是一个统一的基础模型,专为广泛的视频任务设计,包括理解任务(如语言引导的视频对象分割)和生成任务(视频编辑和增强)。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果,并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。
Nov, 2023
提出了一种基于扩散模型的新方法,从文本生成以动态三维物体为中心的高质量多视图视频,通过将问题分解为视点空间和时间组件,并引入对齐模块来保证生成的多视图视频的一致性和连贯性,同时解决了二维和多视图数据之间的领域差异。
Jun, 2024
使用扩散模型实现了文本引导的图像修复的最新进展,而在视频领域中,关于文本引导的视频修复的研究较少。为了解决文本引导的视频修复中的三个主要挑战:时间一致性、不同修复类型的支持、以及可变的视频长度,我们提出了一种名为 AVID (Any-Length Video Inpainting with Diffusion Model) 的方法,它具备有效的运动模块和可调节的结构引导,并建立了一种新颖的时序多扩散采样管道,以实现任意持续时间的视频生成。通过全面的实验,我们的模型能够稳健地处理不同时长范围内的各种修复类型,并生成高质量的视频。
Dec, 2023
视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频,而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。
Oct, 2023
本文介绍了一种新的 T2V 框架,通过引入音频信号来控制时间动态,从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法,以在视频综合的时间灵活性和一致性之间取得良好平衡,并通过实验验证了方法的有效性,并提出了实际应用。
May, 2023
本文介绍了一种基于预训练模型和条件式 3D U-Net 结构的、可以通过自然语言指令编辑视频的方法,同时提出了一种新的视帧差异损失函数,可以在训练过程中提高生成视频的时序一致性,实验表明该方法生成的视频质量高、时序连贯,能够进行多种视频编辑操作。
May, 2023
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023
通过低秩适应的时空注意力层,该文献介绍了一种用于一次性运动定制的自定义视频模型,可以从单个参考视频中学习运动信息,以适应新的主题和场景,并可轻松扩展到多个下游任务。
Feb, 2024
在视频生成方面,本研究提出了一种基于文本的扩散模型,通过使用大型语言模型(LLM)生成的动态场景布局来引导视频生成过程,旨在解决现有模型在处理复杂时空提示时遇到的限制和错误运动的问题。实验证明该方法在生成具有所需特征和运动模式的视频方面显著优于基准模型和一些强基线方法。
Sep, 2023