Jan, 2024

咖啡:隐性扩散变换器用于视频生成

TL;DR我们提出了一种名为 Latte 的新型潜在扩散 Transformer,用于视频生成,并通过严格的实验分析包括视频裁剪嵌入、模型变种、时间步骤类别信息注入、时间位置嵌入和学习策略来确定 Latte 的最佳实践。我们的综合评估表明,Latte 在四个标准的视频生成数据集中取得了最先进的性能,即 FaceForensics、SkyTimelapse、UCF101 和 Taichi-HD。此外,我们将 Latte 扩展到了文本 - 视频生成(T2V)任务,在这个任务中,Latte 与最近的 T2V 模型相比取得了可媲美的结果。我们坚信 Latte 为将 Transformer 融入视频生成扩散模型的未来研究提供了有价值的见解。