Apr, 2023

潜移:通过时间位移进行潜在扩散,实现高效的文本到视频生成

TL;DR该研究提出了一种基于预训练图像生成模型的高效文本到视频生成方法 --Latent-Shift,该方法利用 U-Net 扩散模型在潜空间中学习视频扩散模型。利用无参数的时间移位模块来进行视频的生成工作。研究表明,Latent-Shift 的效果可与或更优于已有的方法,并且能够在进行 T2V 生成的微调的情况下生成图像。