潜在视频变换器
本文通过对辩别器分解的系统实证研究,提出了一种结构,使得其收敛速度和性能都优于之前的方法,并分析了生成器中的循环单元,提出了一种新的循环单元,可以根据预测的动态特征转换其过去的隐藏状态,包括处理去除、场景改变等复杂行为,最终的模型在大规模的 Kinetics-600 数据集上,获得了卓越的性能。
Mar, 2020
本文提出了一种基于无监督方法的视频帧预测技术,相比直接预测未来帧中每个像素点,本文预测未来帧的变换过程,同时提出了一种新的评估协议,该方法在 UCF-101 数据集上进行了验证,在参数和计算成本上更加高效。
Jan, 2017
通过扩散建模,我们提出了一种基于转换器的 W.A.L.T 方法,用于逼真视频生成。我们采用了两个关键设计决策:一是使用因果编码器在统一的潜在空间中联合压缩图像和视频,实现跨模态的训练和生成;二是为了记忆和训练效率,我们使用了一个针对联合空间和时空生成建模的窗口注意力架构。这些设计决策使我们能够在已知的视频 (UCF-101 和 Kinetics-600) 和图像 (ImageNet) 生成基准上达到最先进的性能,而不使用分类器引导。最后,我们还训练了三个模型的串联,用于文本到视频生成任务,包括基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒 8 帧生成 512 x 896 分辨率的视频。
Dec, 2023
该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架,可在有限的计算预算下生成更真实、更长的视频,同时提供了大规模文本到视频生成的扩展应用。
Nov, 2022
本文提出了一种基于层次结构的潜变量模型来提高模型表达能力,减少模糊预测,用于视频序列的未来帧预测任务,经过实验证明本方法在不同数据集上优于现有的潜变量模型。
Apr, 2019
我们提出了一种名为 Latte 的新型潜在扩散 Transformer,用于视频生成,并通过严格的实验分析包括视频裁剪嵌入、模型变种、时间步骤类别信息注入、时间位置嵌入和学习策略来确定 Latte 的最佳实践。我们的综合评估表明,Latte 在四个标准的视频生成数据集中取得了最先进的性能,即 FaceForensics、SkyTimelapse、UCF101 和 Taichi-HD。此外,我们将 Latte 扩展到了文本 - 视频生成(T2V)任务,在这个任务中,Latte 与最近的 T2V 模型相比取得了可媲美的结果。我们坚信 Latte 为将 Transformer 融入视频生成扩散模型的未来研究提供了有价值的见解。
Jan, 2024
本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块,用于视频未来帧预测,并构建了一个全自回归视频未来帧预测 Transformer 框架,另外还提出了一个非自回归视频预测 Transformer 框架,并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作,所提出的模型在性能上与更复杂的现有模型竞争力相当。
Mar, 2022
VideoGPT 是一种简单的架构,利用 VQ-VAE 学习离散化的原始视频的下采样离散潜在表示,并使用类似于 GPT 的简单架构来自回归地模拟其离散潜在分布,以帮助生成高保真的自然视频。
Apr, 2021