- HeartBeat: 智能多模态条件导向扩散模型下的可控心脏超声视频合成
该研究提出了一种名为 HeartBeat 的基于扩散的框架,用于可控和高保真度的 ECHO(超声心动图)视频合成,通过同时感知多模态条件,将这些条件分解为局部和全局条件,并使用两阶段训练方案解耦视觉概念和时间动态学习,以简化模型训练,该框架 - ExVideo:通过参数高效后调来扩展视频扩散模型
我们提出了一种名为 ExVideo 的新型视频合成模型后调优方法,该方法可以增强当前视频合成模型的能力,使其在更长的时间范围内生成内容,并降低培训成本。
- 飞行中的光子:渲染传播光的新视图
我们提出了一种成像和神经渲染技术,旨在从新颖的移动视角合成通过场景传播的光的视频。我们的方法依赖于一种新的超快成像设备,用皮秒级时间分辨率捕捉首个多视角视频数据集。结合该数据集,我们引入了一种基于瞬态场的高效神经体渲染框架。该场被定义为从三 - 基于翻译的视频合成
以图像转换为基础的视频合成(TVS)作为计算机视觉中的一个关键研究领域,旨在在保持时间连续性和基础特征的同时促进视频在不同领域之间的转换。本文通过全面回顾最新进展,深入研究新兴方法和机制,阐明了有效视频合成的基本概念。同时,它还探讨了它们的 - 逐帧解析:理解视频扩散模型中的复制
通过对视频扩散模型的研究,我们系统调查了样本复制现象,分析了最近的视频合成扩散模型在无条件和有条件生成情景下对空间和时间内容的复制倾向,并提出了减少复制的策略和考虑复制问题的新评估策略。
- 自适应超分辨率用于一次性说话头生成
提出了一种自适应的高质量说话头视频生成方法,通过降采样源图像并利用编码解码模块自适应重构高频细节,以提高合成视频的清晰度。
- Boximator: 生成富有丰富和可控的动作用于视频合成
Boximator 是一种新的视频合成方法,通过引入硬盒和软盒两种约束类型,在条件帧中选择目标物体并在未来帧中粗略或严格定义其位置、形状或运动路径,以实现丰富且可控的运动;在训练过程中,通过冻结原始权重并仅训练控制模块,保持基础模型的知识; - Lumiere: 一个用于视频生成的时空扩散模型
Lumiere 是一种文本到视频扩散模型,用于综合描绘逼真、多样和连贯的运动,在视频合成中是一个关键的挑战。通过引入空时 U-Net 架构,我们一次性地生成整个视频的时间持续性,与现有的合成关键帧和时间超分辨率的视频模型相比,我们的设计更容 - BIVDiff:基于图像和视频扩散模型的无需训练的通用视频合成框架
我们提出了一个无需训练的通用视频合成框架,命名为 BIVDiff,通过将特定的图像扩散模型与通用文本到视频基础扩散模型相结合,既实现了强大的任务泛化能力,又具有高效性。
- 零样学习的基于文本驱动运动转换的时空扩散特征
我们提出了一种新的文本驱动运动转换方法,通过合成一个符合目标对象和场景描述的输入文本的视频,同时保持输入视频的运动和场景布局。
- I2VGen-XL: 通过级联扩散模型实现高质量图像到视频的合成
提出了 I2VGen-XL 的级联方法,通过将两个因素解耦并利用静态图像作为关键指导,能够同时提高模型的语义准确性、细节的连续性和视频的清晰度。
- 莫特里卡扩散模型
引入了 Matryoshka Diffusion Models(MDM),这是一种用于高分辨率图像和视频合成的端到端框架。通过在多个分辨率上联合去噪输入,使用嵌套 UNet 架构和从低到高分辨率的渐进式训练安排,实现了高分辨率生成的显著优化 - Speech2Lip: 高保真语音到嘴唇生成通过学习自一部短视频
给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架,该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频,实现了短视频时的准确嘴唇和形象产生,以及视频的视觉质量和语音 - 视觉同步方面的最新 - DiffSynth: 逼真视频合成的迭代去闪烁潜在空间
DiffSynth 是一种新颖的方法,旨在将图像合成管道转化为视频合成管道,其中包括潜在迭代去闪烁框架和视频去闪烁算法,常用于多种视频合成任务,包括文本引导视频风格化、时尚视频合成、图像引导视频风格化、视频恢复和 3D 渲染。
- 利用检索辅助视频生成技术的动画故事讲述
提出了一种使用现有短视频合成视觉讲述视频的技术,该技术基于查询文本描述运动结构,在结构引导和外观指导下生成基于情节的视频,并通过概念个性化方法保证视频的视觉一致性。
- IJCAI带有局部 - 全局上下文引导的视频扩散模型
本研究提出一种局部 - 全局上下文引导的视频扩散模型 (LGC-VD),旨在在有条件 / 无条件的情况下捕获多感知条件,以产生高质量的视频。通过实验,证明此方法在视频预测、插值和无条件视频生成方面具有优异的性能。
- ControlVideo: 无需训练的可控文本到视频生成
ControlVideo 是一种基于文本驱动扩散模型的、无需训练即可完成自然高效文本到视频生成,使用三个模块实现外观协调、帧插值以及分层采样,能够在轻松几分钟之内生成高质量的短视频和长视频。
- 保留自身关联性:一种视频扩散模型的噪声先验
本文提出了一种新的视频综合方法,它使用预训练模型,并使用经过精心设计的视频噪声先验来生成高质量,时域一致的序列帧,获得了在 UCF-101 和 MSR-VTT 基准测试上 SOTA 的无需训练文本到视频结果。同时,在较小的 UCF-101 - 单帧布局生成多对象视频
该论文研究了视频生成,并着重简化生成条件。作者使用单个帧对象布局作为唯一条件,通过隐式神经表示和布局动态自我推理,提出了一种新的视频生成框架,能够合成全局场景和局部对象,实验结果表明,该模型比基准模型更加有效。
- AADiff: 音频对齐视频生成与文本到图像扩散
本文介绍了一种新的 T2V 框架,通过引入音频信号来控制时间动态,从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法,以在视频综合的时间灵活性和一致性之间取得良好平衡,并通过实验验证了方法的有效性