Vidu: 一种高一致性、动态且技术娴熟的文本到视频生成器，采用扩散模型

May, 2024

Vidu: 一种高一致性、动态且技术娴熟的文本到视频生成器，采用扩散模型

Vidu: a Highly Consistent, Dynamic and Skilled Text-to-Video Generator with Diffusion Models

Fan Bao, Chendong Xiang, Gang Yue, Guande He, Hongzhou Zhu...

TL;DRVidu 是一种高性能的文本到视频生成器，采用 U-ViT 作为骨干模型，可以单次生成长达 16 秒的 1080p 视频。Vidu 具有较强的连贯性和动态性，能够生成逼真和富有想象力的视频，同时，在某些专业摄影技术方面具备与 Sora 相媲美的水平。最后，我们还进行了其他可控制的视频生成初步实验，包括 Canny-to-video 生成、视频预测和主题驱动生成，结果显示有希望。

Abstract

We introduce vidu, a high-performance text-to-video generator that is capable of producing 1080p videos up to 16 seconds in a single generation.

text-to-video generator vidu u-vit coherence dynamism

发现论文，激发创造

图像视频：扩散模型生成高清晰度视频

基于级联的视频扩散模型，Imagen Video 是一种文本有条件的视频生成系统，它使用基础视频生成模型和序列的交错空间和时间视频超分辨率模型生成高清视频。该系统可扩展为高清文本到视频模型，具有高度的可控性和世界知识，包括生成各种艺术风格的多样化视频和文本动画以及 3D 对象理解。

Oct, 2022

VIDiff: 多模态指令扩散模型的视频翻译

我们提出了 Video Instruction Diffusion（VIDiff），这是一个统一的基础模型，专为广泛的视频任务设计，包括理解任务（如语言引导的视频对象分割）和生成任务（视频编辑和增强）。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果，并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。

Nov, 2023

VideoGen：一种参考引导的潜在扩散方法用于高清文本到视频生成

使用参考引导的潜在扩散方法，VideoGen 提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法，通过将文本转换为视频生成。

Sep, 2023

MobileVidFactory：基于文本的自动扩散社交媒体视频生成移动设备

MobileVidFactory 是一个系统，用于自动生成垂直移动视频，用户只需提供简单的文本，通过利用预训练的图像扩散模型和音频检索来生成高质量、个性化的移动视频。

Jul, 2023

MagicVideo：利用潜在扩散模型高效生成视频

MagicVideo 利用基于潜在扩散模型的高效文本生成视频框架生成与文本内容高度相关的逼真视频片段，并使用低维潜在空间在单个 GPU 卡上生成具有 256x256 空间分辨率的视频片段，可以在 64 倍于最近的视频扩散模型（VDM）的速度下生成。

Nov, 2022

VidEdit：零样本和空间感知的文本驱动视频编辑

本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法，利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性，证明在 DAVIS 数据集上，VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法，同时仅需大约一分钟即可处理一个视频。

Jun, 2023

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

VideoCrafter1：高质量视频生成的开放扩散模型

视频生成的开源模型包括文本到视频和图像到视频两种扩散模型。文本到视频模型能够生成高分辨率、逼真且影片般质量的视频，而图像到视频模型可以将给定的图像转化为视频片段并保留内容约束。这些开源视频生成模型将在技术进步中做出重要贡献。

Oct, 2023

Vidu4D：使用动态高斯黎曼表面对单一生成视频进行高保真度 4D 重建

本论文介绍了一种名为 Vidu4D 的重建模型，通过使用动态高斯 Surfels 技术实现从单个生成的视频中准确重建 4D 表示，解决了非刚性运动和帧畸变等挑战，从而创建具有空间和时间一致性的高保真虚拟内容，并在外观和几何上展示了高保真的文本至 4D 生成。

May, 2024

UniVG: 走向统一模态视频生成

提出了一种统一的多模态视频生成系统，能够处理基于文本和图像模态的多个视频生成任务，其中高自由度视频生成采用多条件交叉注意力对齐输入图像或文本的语义，低自由度视频生成引入偏置高斯噪声以更好地保留输入条件的内容，该方法在 MSR-VTT 公共学术基准中取得了最低的 Fréchet 视频距离（FVD），在人类评估中超过了当前的开源方法，并与当前的闭源方法 Gen2 持平。

Jan, 2024