Aug, 2023

APLA:附加扰动的潜在噪声对抗训练提高一致性

TL;DR基于扩散模型,我们提出了一种新型的基于文本到视频生成网络结构,名为增加扰动的潜在噪声与对抗训练(APLA)。该方法仅需要一个视频作为输入,并建立在预训练的稳定扩散网络上。我们引入了一个名为视频生成变换器(VGT)的辅助组件,用于从输入中提取扰动,从而在时间预测过程中改善不一致的像素。我们利用变换器和卷积的混合架构来弥补时间上的复杂性,从而提高视频内不同帧之间的一致性。实验证明,在生成的视频的一致性方面,我们取得了明显的定量和定性改进。