UniVG: 走向统一模态视频生成

Jan, 2024

UniVG: Towards UNIfied-modal Video Generation

Ludan Ruan, Lei Tian, Chuanwei Huang, Xu Zhang, Xinyan Xiao

TL;DR提出了一种统一的多模态视频生成系统，能够处理基于文本和图像模态的多个视频生成任务，其中高自由度视频生成采用多条件交叉注意力对齐输入图像或文本的语义，低自由度视频生成引入偏置高斯噪声以更好地保留输入条件的内容，该方法在 MSR-VTT 公共学术基准中取得了最低的 Fréchet 视频距离（FVD），在人类评估中超过了当前的开源方法，并与当前的闭源方法 Gen2 持平。

Abstract

diffusion based video generation has received extensive attention and achieved considerable success within both the academic and industrial communities. However, current efforts are mainly concentrated on single-objective or single-task video generation, such as generation driven by te

diffusion based video generation unified-modal video generation multi-condition cross attention biased gaussian noise fréchet video distance (fvd)

发现论文，激发创造

MTVG: 多文本视频生成与文本到视频模型

最近，视频生成引起了广泛关注并取得了显着成果。针对视频的特点，多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型，通过直接利用预训练的基于扩散的文本到视频转换模型进行生成，而无需额外的微调。为了生成连续的视频片段，不同提示生成的视觉一致性是必要的，具有多样的变化，如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演，用于在不同提示的视频之间重新初始化噪声潜变量，以保持视觉一致性并防止重复运动或内容。此外，我们提出了结构导向采样，以在单个视频剪辑的帧之间保持全局外观，其中我们通过对前一帧进行迭代潜变量更新。此外，我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例：[此链接](https://this_URL)

Dec, 2023

Gen-L-Video：多文本到长视频生成与时域协同去噪

本文提出了一种称为 Gen-L-Video 的新方法，该方法利用现有的短视频扩散模型扩展了当前的文本驱动视频生成和编辑能力，使其能够生成和编辑具有多个语义段的数百帧的长视频，而不需要额外的训练，从而极大地拓宽了视频扩散模型的生成和编辑能力。

May, 2023

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

MagicVideo：利用潜在扩散模型高效生成视频

MagicVideo 利用基于潜在扩散模型的高效文本生成视频框架生成与文本内容高度相关的逼真视频片段，并使用低维潜在空间在单个 GPU 卡上生成具有 256x256 空间分辨率的视频片段，可以在 64 倍于最近的视频扩散模型（VDM）的速度下生成。

Nov, 2022

未见领域视频时刻检索的生成式视频扩散

本研究通过利用目标领域的句子（文本提示）而无需访问其视频，探索生成式视频扩散来编辑源视频，实现未知领域的视频时刻检索（VMR）。通过两个问题的解决，即产生具有微妙差异的不同时刻的高质量模拟视频和选择与现有源训练视频互补的模拟视频，优化未知领域的 VMR。

Jan, 2024

Music2Video：音频和文本融合的自动生成音乐视频

利用多模态特征空间中的文本和音频嵌入指导生成模型的生成图像，进一步实现音乐视频创作，我们提出的方法需要对视频进行自动分段，同时保持时间上的一致性，与以前的方法不同，我们的方法融合了文本和音频两个模态，展示了良好的应用效果

Jan, 2022

ConditionVideo: 无需训练的条件引导文本到视频生成

在本文中，我们介绍了一种无需训练的文本到视频生成方法，通过利用现有的文本到图像生成方法生成逼真的动态视频，这种方法以条件、视频和输入文本为基础。我们的方法将运动表示明确地分为条件引导和场景运动组成，并引入了稀疏双向时空注意力来改善时序一致性。与其他比较方法相比，我们的方法在帧一致性、剪辑评分和条件精度方面表现出卓越性能。

Oct, 2023

VideoGen：一种参考引导的潜在扩散方法用于高清文本到视频生成

使用参考引导的潜在扩散方法，VideoGen 提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法，通过将文本转换为视频生成。

Sep, 2023

VideoMV：基於大型視頻生成模型的一致多視角生成

使用来自视频生成模型的图像，通过引入一种新的框架以及 3D 感知降噪采样策略，可以更快速地生成密集视图，提高图像的质量和一致性。

Mar, 2024

通过多模态遮挡视频生成实现统一的文本引导视频完成

提供了一个新的任务，即文本引导下的视频完成（TVC），并提出了一种新的模型 —— 多模式蒙版视频生成（MMVG），通过文本输入生成高质量的视频完整图像，同时满足预测，倒带和填充的条件。

Nov, 2022