I4VGen：文本到视频生成的图像媒介

Jun, 2024

I4VGen：文本到视频生成的图像媒介

I4VGen: Image as Stepping Stone for Text-to-Video Generation

Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang

TL;DR使用 I4VGen 框架，通过文本到图像到视频的多阶段过程，生成了更具视觉逼真度和文本准确性的视频，并能有效提升现有图像到视频扩散模型的整体质量。

Abstract

text-to-video generation has lagged behind text-to-image synthesis in quality and diversity due to the complexity of spatio-temporal modeling and limited video-text datasets. This paper presents i4vgen, a trainin

text-to-video generation i4vgen video diffusion inference anchor image synthesis video regeneration

发现论文，激发创造

I2VGen-XL: 通过级联扩散模型实现高质量图像到视频的合成

提出了 I2VGen-XL 的级联方法，通过将两个因素解耦并利用静态图像作为关键指导，能够同时提高模型的语义准确性、细节的连续性和视频的清晰度。

Nov, 2023

VideoGen：一种参考引导的潜在扩散方法用于高清文本到视频生成

使用参考引导的潜在扩散方法，VideoGen 提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法，通过将文本转换为视频生成。

Sep, 2023

4DGen: 基于时空一致性的基于地面的 4D 内容生成

4DGen 是一种新颖的综合框架，将 4D 内容创建任务拆分为多个阶段，利用静态 3D 资产和单目视频序列作为构建 4D 内容的关键组成部分，使用动态 3D Gaussians 构建 4D 表示，在训练期间利用渲染进行高分辨率监督，从而实现了高质量的 4D 生成，并实施了 3D 感知的得分蒸馏采样和平滑正则化以提供空间 - 时间伪标签和无缝一致性先验，相比现有基线方法，在忠实重建输入信号和从新视点和时间步骤推断渲染方面取得了具有竞争力的结果，最重要的是，我们的方法支持基于实际场景的生成，为用户提供了增强控制，这是以前方法难以实现的特点。

Dec, 2023

TiVGAN: 逐步进化生成器的文本、图像与视频生成

通过训练 Text-to-Image-to-Video Generative Adversarial Network 模型，我们实现了对于给定的文本描述，生成相对应的视频，进而对深度学习、视频生成等相关领域进行研究探索。

Sep, 2020

VideoCrafter1：高质量视频生成的开放扩散模型

视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频，而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。

Oct, 2023

图像视频：扩散模型生成高清晰度视频

基于级联的视频扩散模型，Imagen Video 是一种文本有条件的视频生成系统，它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型，具有高度的可控性和世界知识，包括生成各种艺术风格的多样化视频和文本动画以及 3D 对象理解。

Oct, 2022

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

文本到视频生成的层次化时空解耦

提出了 HiGen，一种基于扩散模型的方法，通过从结构层面和内容层面解耦视频的空间和时间因素，实现了在生成视频时具备语义准确性和运动稳定性的方法。

Dec, 2023

视频电梯：用多功能的文本到图像扩散模型提升视频生成质量

Text-to-video diffusion models still lag behind compared to text-to-image models, so this paper introduces VideoElevator, a training-free and plug-and-play method that improves T2V performance using T2I capabilities, specifically by enhancing temporal consistency and adding photo-realistic details for personalized stylistic video synthesis.

Mar, 2024

Gen4Gen：生成式多概念组合的生成数据管道

该研究介绍了一种基于 Gen4Gen 的半自动数据集创建流程，并提出了一种综合指标以更好地量化多概念个性化文本到图像扩散方法的性能。研究通过改善数据质量和提示策略，将实现多概念个性化图像生成质量的显著提高，而无需对模型架构或训练算法进行任何修改。

Feb, 2024