文本到视频生成的层次化时空解耦

Dec, 2023

文本到视频生成的层次化时空解耦

Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation

Zhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yujie Wei...

TL;DR提出了 HiGen，一种基于扩散模型的方法，通过从结构层面和内容层面解耦视频的空间和时间因素，实现了在生成视频时具备语义准确性和运动稳定性的方法。

Abstract

Despite diffusion models having shown powerful abilities to generate photorealistic images, generating videos that are realistic and diverse still remains in its infancy. One of the key reasons is that current methods intertwine spatial content and temporal dynamics together, leading t

diffusion models text-to-video generation higen spatial reasoning temporal stability

发现论文，激发创造

VideoGen：一种参考引导的潜在扩散方法用于高清文本到视频生成

使用参考引导的潜在扩散方法，VideoGen 提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法，通过将文本转换为视频生成。

Sep, 2023

I2VGen-XL: 通过级联扩散模型实现高质量图像到视频的合成

提出了 I2VGen-XL 的级联方法，通过将两个因素解耦并利用静态图像作为关键指导，能够同时提高模型的语义准确性、细节的连续性和视频的清晰度。

Nov, 2023

使用图像扩散模型编辑具有时间一致性的视频

通过建立一个优雅而高效的 TCVE（Temporal-Consistent Video Editing）方法，本研究在大规模文本到图像（T2I）扩散模型的基础上，解决了文本引导视频编辑中的时间不连贯问题，取得了视频时序一致性和编辑能力方面的最新突破，并超越了该领域的现有基准。

Aug, 2023

VideoTetris：走向组合式文本到视频生成

Diffusion models have limitations when handling complex video generation scenarios, so VideoTetris proposes a novel framework using spatio-temporal compositional diffusion for precise T2V generation by manipulating attention maps and enhancing training data, achieving impressive results.

Jun, 2024

Vivid-ZOO: 多视图视频生成与扩散模型

提出了一种基于扩散模型的新方法，从文本生成以动态三维物体为中心的高质量多视图视频，通过将问题分解为视点空间和时间组件，并引入对齐模块来保证生成的多视图视频的一致性和连贯性，同时解决了二维和多视图数据之间的领域差异。

Jun, 2024

结构和内容引导的扩散模型视频合成

本研究提出一种结构与内容导向的视频扩散模型。训练过程基于单眼深度估计，能够控制结构和内容的保真度，并通过新的指导方法使模型展现明确的时间一致性控制。实验结果表明该模型可以实现对视频特征的精细控制，依据少数参考图像定制化编辑，且用户更倾向于使用该模型的结果。

Feb, 2023

解耦内容与运动进行条件图像到视频的生成

通过将目标 RGB 像素分解成空间内容和时间运动两个不同的组成部分，我们提出了一种解决传统 RGB 像素空间方法中涉及建模动作一致性和视觉连贯性限制的新方法。通过显式建模时间运动并将其应用于起始图像，我们改进了生成视频的时间一致性，减少了空间冗余，突出了时间细节。大量实验证实了我们的方法相对于大多数最先进的方法在效果和效率上的卓越性能。

Nov, 2023

VideoCrafter1：高质量视频生成的开放扩散模型

视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频，而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。

Oct, 2023

层次化解耦空间 - 时间对比用于自监督视频表征学习

提出一种新的自监督视频表示学习技术，通过将学习目标分解为两个对比子任务并分层进行，强调空间和时间特征，从而鼓励多尺度理解。通过实验表明，可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义，并提出一种方式，使模型可以在多个尺度上分别捕捉空间和时间特征。还介绍了一种克服不同层次上实例不变性差异的方法。将代码公开。

Nov, 2020

2D Triplane 和 3D 小波表示的混合视频扩散模型

提出了一种名为 HVDM 的混合视频扩散模型，能更有效地捕捉视频的时空依赖关系并生成高质量的视频。通过混合视频自动编码器，提取视频的解离表示，包括全局上下文信息、本地体积信息和频率信息，以实现更全面的视频潜变量并丰富生成视频的细节和结构。实验证明该方法在视频生成质量方面达到了最先进水平，并具有广泛的视频应用。

Feb, 2024