S2DM: 视频生成的扇形扩散模型

Mar, 2024

S2DM: Sector-Shaped Diffusion Models for Video Generation

Haoran Lang, Yuxuan Ge, Zheng Tian

TL;DR我们提出了一种新颖的扇形扩散模型（S2DM），通过一组从相同噪声点开始的射线状反扩散过程形成的扇形扩散区域，S2DM 可以生成一组具有相同语义和随机特征的内在相关数据，但在时间特征上有适当的引导条件所变化。我们将 S2DM 应用于视频生成任务，并探索了光流作为时间条件的使用。实验结果表明，S2DM 在视频生成任务中的表现优于许多现有方法，而不需要任何时间特征建模模块。对于文本到视频生成任务，在没有明确给定时间条件的情况下，我们提出了一种两阶段生成策略，可以将时间特征的生成与语义内容特征的生成分离开来。我们展示了在没有额外训练的情况下，将我们的模型与另一个时间条件生成模型集成仍然可以达到与现有作品相当的性能。

Abstract

diffusion models have achieved great success in image generation. However, when leveraging this idea for video generation, we face significant challenges in maintaining the consistency and continuity across video

diffusion models video generation sector-shaped diffusion model temporal conditions text-to-video generation

发现论文，激发创造

运动乐章：将静态图像转化为动态视频

通过将语义和动作线索整合到扩散模型中，我们引入了一种用于视频生成的新方法，它显著提升了视频质量、动作精度和语义连贯性。

Mar, 2024

GD-VDM: 基于生成深度的扩散视频生成方法

本文提出了一种新的扩散模型 GD-VDM 用于视频生成，通过在生成深度视频和扩散 Vid2Vid 模型之间的两个阶段进行，能够生成更加多样化、复杂的场景。

Jun, 2023

视频扩散模型

本研究通过提出扩展图像扩散结构的扩散模型，使得可以自然地对图像和视频数据进行联合训练以生成高保真度的时空连续的视频，并引入一种更好的有条件采样技术，得到了在文本条件视频生成任务及视频预测和无条件视频生成方面的最先进结果。

Apr, 2022

通过同步多帧扩散实现高精细和时间一致的视频风格化

提出了一种基于文本引导的视频风格化方法，通过同步多帧扩散框架来维持视觉细节和时间一致性，实现了视觉细节和时间一致性的生成高质量和多样性的结果。

Nov, 2023

文本到视频生成的双流扩散网络

该论文提出了一种双流扩散网络（DSDN），以提高生成视频中内容变化的一致性，并通过引入交叉变换器交互模块实现内容和动作领域之间的良好对齐，从而减少了视频中的闪烁现象。定性和定量实验证明，该方法能够生成流畅连续且闪烁较少的精彩视频。

Aug, 2023

Vivid-ZOO: 多视图视频生成与扩散模型

提出了一种基于扩散模型的新方法，从文本生成以动态三维物体为中心的高质量多视图视频，通过将问题分解为视点空间和时间组件，并引入对齐模块来保证生成的多视图视频的一致性和连贯性，同时解决了二维和多视图数据之间的领域差异。

Jun, 2024

4Diffusion: 多视角视频扩散模型的 4D 生成

我们提出了一种新颖的 4D 生成管道，名为 4Diffusion，旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合，我们设计了一个为多视图视频生成量身定制的统一扩散模型，以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练，我们的扩散模型获得了合理的时间一致性，并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后，我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失，以优化由动态 NeRF 参数化的 4D 表示，从而消除多个扩散模型引起的差异，实现生成空间时间一致的 4D 内容。此外，我们设计了一个锚点损失，以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明，我们的方法相比之前的方法具有更好的性能。

May, 2024

StoryDiffusion: 长距离图像和视频生成的一致性自注意力

通过引入一种新的自我关注计算方式（Consistent Self-Attention），以及引入一种语义空间时间运动预测模块（Semantic Motion Predictor），本文提出了一种名为 StoryDiffusion 的框架，能够生成包含丰富内容的一致图像或视频，用来描述基于文本的故事。

May, 2024

循环去噪：用于文本到视频生成的迭代式去噪

通过复用和扩散的框架 VidRD，使用潜在扩散模型（LDM）和自编码器实现文本到视频生成，获得了良好的定量和定性结果。

Sep, 2023

Diffusion$^2$: 通过正交扩散模型的得分组合生成动态 3D 内容

Diffusion$^2$ 是一种新颖的框架，通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识，直接生成密集的多视图和多帧图像，优化连续性 4D 表示，从而在几分钟内生成 4D 内容。

Apr, 2024