Aug, 2024

xGen-VideoSyn-1:高保真文本到视频合成与压缩表示

TL;DR本研究解决了文本到视频生成过程中高计算成本的问题,提出了一种基于潜在扩散模型的高效视频生成方法。通过引入视频变分自编码器(VidVAE)和分段合并策略,优化了视频数据的处理,并保持临时一致性。实验结果表明,xGen-VideoSyn-1在生成720p视频时具备竞争力的性能,推动了文本到视频合成技术的发展。