VSTAR：用于长时间动态视频合成的生成时域护理

Mar, 2024

VSTAR：用于长时间动态视频合成的生成时域护理

VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis

Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva

TL;DR通过引入GTN概念，我们提出了一种名为VSTAR的方法，通过自动化生成视频摘要和时间注意力正则化技术，以改善T2V模型在生成长视频时的动态性，并实验证明了我们的方法在生成较长且具有视觉吸引力的视频方面的优越性。

Abstract

Despite tremendous progress in the field of text-to-video (T2V) synthesis, open-sourced T2V diffusion models struggle to generate longer videos with dynamically varying and evolving content. They tend to synthesize quasi-static videos, ignoring the necessary visual change-over-time implied in the text prompt. At the same time, scaling these models to enable

发现论文，激发创造

利用大型语言模型增强面向动态感知的文本到视频扩散

通过设计一个创新的动态场景管理器 (Dysen) 模块，该模块可以从输入文本中提取关键动作并将其以适当的时间顺序和动态场景图 (DSG) 表示转换，从而丰富了视频的场景细节，并与主干的T2V DM相结合来实现高质量的文本到视频生成。

Aug, 2023

VideoGen：一种参考引导的潜在扩散方法用于高清文本到视频生成

使用参考引导的潜在扩散方法，VideoGen提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法，通过将文本转换为视频生成。

Sep, 2023

LAVIE：级联潜在扩散模型的高质量视频生成

该研究论文提出了LaVie，一个整合的视频生成框架，通过利用预训练的文本到图像模型作为基础，以学习高质量的文本到视频生成模型。通过引入简单的时间自注意机制以及联合图像-视频微调的过程，LaVie能够生成视觉逼真且时间连贯的视频，并保留预训练T2I模型的创造性。经广泛实验证明，LaVie在性能上取得了最先进的表现，并可用于不同的长视频生成和个性化视频合成应用。

Sep, 2023

FreeNoise：无需调整的长视频扩散通过噪音重新调度

利用大规模视频数据集和扩散模型的进展，本研究通过引入多个文本条件，拓展了文本驱动视频生成模型的生成能力，解决了现有模型在生成高保真长视频和针对多文本条件的支持方面的局限性。

Oct, 2023

SEINE: 短到长视频扩散模型用于生成过渡和预测

这篇论文介绍了一种名为SEINE的短到长视频扩散模型，着重于生成过渡和预测，旨在生成具有平滑和创造性场景过渡的高质量长视频。

Oct, 2023

MTVG: 多文本视频生成与文本到视频模型

最近，视频生成引起了广泛关注并取得了显着成果。针对视频的特点，多文本条件在下一步视频生成中需要结合顺序事件。本研究提出了一种新的多文本视频生成模型，通过直接利用预训练的基于扩散的文本到视频转换模型进行生成，而无需额外的微调。为了生成连续的视频片段，不同提示生成的视觉一致性是必要的，具有多样的变化，如运动和内容相关的过渡。我们的方法包括动态噪声和最后一帧感知反演，用于在不同提示的视频之间重新初始化噪声潜变量，以保持视觉一致性并防止重复运动或内容。此外，我们提出了结构导向采样，以在单个视频剪辑的帧之间保持全局外观，其中我们通过对前一帧进行迭代潜变量更新。此外，我们的提示生成器允许由各种事件组成的文本条件的任意格式。我们的广泛实验证明了我们的方法在语义上的一致性和时间上的连续性方面具有出色的生成输出。项目页面提供了视频示例：[此链接](https://this_URL)

Dec, 2023

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过StreamingT2V方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

VideoTetris：走向组合式文本到视频生成

Diffusion models have limitations when handling complex video generation scenarios, so VideoTetris proposes a novel framework using spatio-temporal compositional diffusion for precise T2V generation by manipulating attention maps and enhancing training data, achieving impressive results.

Jun, 2024

xGen-VideoSyn-1：高保真文本到视频合成与压缩表示

本研究解决了文本到视频生成过程中高计算成本的问题，提出了一种基于潜在扩散模型的高效视频生成方法。通过引入视频变分自编码器(VidVAE)和分段合并策略，优化了视频数据的处理，并保持临时一致性。实验结果表明，xGen-VideoSyn-1在生成720p视频时具备竞争力的性能，推动了文本到视频合成技术的发展。

Aug, 2024