xGen-VideoSyn-1：高保真文本到视频合成与压缩表示

Aug, 2024

xGen-VideoSyn-1：高保真文本到视频合成与压缩表示

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Can Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu...

TL;DR本研究解决了文本到视频生成过程中高计算成本的问题，提出了一种基于潜在扩散模型的高效视频生成方法。通过引入视频变分自编码器(VidVAE)和分段合并策略，优化了视频数据的处理，并保持临时一致性。实验结果表明，xGen-VideoSyn-1在生成720p视频时具备竞争力的性能，推动了文本到视频合成技术的发展。

Abstract

We present xGen-VideoSyn-1, a Text-to-Video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the Latent Diffusion

发现论文，激发创造

使用潜变量扩散模型进行高分辨率视频合成的对齐

该研究将LDM范例应用于高分辨率视频生成中，利用图像生成器实现视频生成，利用时间维度对视频超分辨率模型进行精细调整，验证其在真实驾驶视频上的表现，且可将LDM应用于文本到视频模型中。

Apr, 2023

VideoGen：一种参考引导的潜在扩散方法用于高清文本到视频生成

使用参考引导的潜在扩散方法，VideoGen提供了一种生成高清晰度、高帧保真度和强时间一致性的视频的方法，通过将文本转换为视频生成。

Sep, 2023

循环去噪：用于文本到视频生成的迭代式去噪

通过复用和扩散的框架VidRD，使用潜在扩散模型（LDM）和自编码器实现文本到视频生成，获得了良好的定量和定性结果。

Sep, 2023

像素与潜在扩散模型在文字到视频生成中的融合

本文提出了一个混合模型，名为 Show-1，结合了基于像素和基于潜变量的文本到视频扩散模型，以实现精确的文本-视频对齐和高质量视频生成。

Sep, 2023

I2VGen-XL: 通过级联扩散模型实现高质量图像到视频的合成

提出了I2VGen-XL的级联方法，通过将两个因素解耦并利用静态图像作为关键指导，能够同时提高模型的语义准确性、细节的连续性和视频的清晰度。

Nov, 2023

稳定的视频扩散：将潜在视频扩散模型扩展到大型数据集

我们提出了稳定的视频扩散-一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。

Nov, 2023

VSTAR：用于长时间动态视频合成的生成时域护理

通过引入GTN概念，我们提出了一种名为VSTAR的方法，通过自动化生成视频摘要和时间注意力正则化技术，以改善T2V模型在生成长视频时的动态性，并实验证明了我们的方法在生成较长且具有视觉吸引力的视频方面的优越性。

Mar, 2024

StreamingT2V：基于文本的一致、动态、可扩展长视频生成

通过StreamingT2V方法，可以实现高质量的长视频生成，该方法采用文本到视频扩散模型并引入条件注意模块，具有一致性和高运动量。

Mar, 2024

VideoTetris：走向组合式文本到视频生成

Diffusion models have limitations when handling complex video generation scenarios, so VideoTetris proposes a novel framework using spatio-temporal compositional diffusion for precise T2V generation by manipulating attention maps and enhancing training data, achieving impressive results.

Jun, 2024

ARLON：利用自回归模型提升扩散变压器进行长视频生成

本研究解决了长视频生成中由于数据和计算资源限制所带来的效率问题。提出的ARLON框架通过结合自回归模型提供的信息，增强了扩散变压器的生成能力，显著提高了动态特性和美学质量，同时加快了生成过程，最终在长视频生成中实现了最先进的性能。

Oct, 2024