介绍了一种使用条件扩散模型的视频合成方法(MCDiff),可以通过一组笔画控制视频的内容和动态,达到了良好的视觉效果。
Apr, 2023
我们提出了一种基于形状条件的运动扩散模型(SMD),该模型可以直接在网格格式中生成运动序列,并结合了频谱 - 时间自编码器(STAE)以在频谱域内利用跨时依赖关系。通过广泛的实验评估,我们证明了 SMD 不仅可以生成栩栩如生的真实动作,而且在文本转换和动作转换任务中与最先进的方法相比具有竞争力的性能。
May, 2024
通过将静止图像与动态相结合,提供更具吸引力的视觉体验。
Oct, 2023
我们提出了一种新颖的扇形扩散模型(S2DM),通过一组从相同噪声点开始的射线状反扩散过程形成的扇形扩散区域,S2DM 可以生成一组具有相同语义和随机特征的内在相关数据,但在时间特征上有适当的引导条件所变化。我们将 S2DM 应用于视频生成任务,并探索了光流作为时间条件的使用。实验结果表明,S2DM 在视频生成任务中的表现优于许多现有方法,而不需要任何时间特征建模模块。对于文本到视频生成任务,在没有明确给定时间条件的情况下,我们提出了一种两阶段生成策略,可以将时间特征的生成与语义内容特征的生成分离开来。我们展示了在没有额外训练的情况下,将我们的模型与另一个时间条件生成模型集成仍然可以达到与现有作品相当的性能。
Mar, 2024
该研究提出了一种基于视频扩散模型的图像和视频编辑方法,利用时序信息和高分辨率信息生成与指导文本匹配的视频,并以完全时间关注和时间关注掩码联合完成模型的微调,实现了较好的编辑效果。
Feb, 2023
提出一种新的运动感知视频生成 (MoVideo) 框架,从视频深度和光流两个方面考虑运动,并通过稀疏 - 时间扩散模型生成视频深度和光流,然后在潜在空间中生成视频,最后利用光流对不同帧进行对齐和细化,实现了文本到视频和图像到视频生成中最先进的结果。
Nov, 2023
通过将动态 3D 网格的可控性与新兴扩散模型的表达能力和可编辑性相结合,我们提出了一种新的方法来自动化计算机生成的视频的创作过程,并输出高质量和时间上一致的帧。
Dec, 2023
通过结合文字提示、人体动作和现有物体来进行多模态场景合成的多条件扩散模型,理论上支持,实验证明优于最先进的基准,并可实现自然场景编辑应用。
通过引入一种新的自我关注计算方式(Consistent Self-Attention),以及引入一种语义空间时间运动预测模块(Semantic Motion Predictor),本文提出了一种名为 StoryDiffusion 的框架,能够生成包含丰富内容的一致图像或视频,用来描述基于文本的故事。
本文介绍了一种名为 SinMDM 的单一运动模型,使用扩散模型和针对单一运动的去噪网络设计,能够学习任意长度的与原来的运动片段相似的动画并且高效快速。SinMDM 可应用于各种场景,包括运动合成,风格迁移和人群动画。