自回归视频模型的扩展

ICLRJun, 2019

Scaling Autoregressive Video Models

Dirk Weissenborn, Oscar Täckström, Jakob Uszkoreit

TL;DR通过在 Kinetics 数据集上训练基于三维自注意机制的自回归视频生成模型，我们展示了这种概念简单的方法在产生高保真、逼真度更高的视频方面具有竞争力。

Abstract

Due to the statistical complexity of video, the high degree of inherent stochasticity, and the sheer amount of data, generating natural video remains a challenging task. State-of-the-art video generation models often attempt to address these issues by combining sometimes complex, usual

video generation neural networks self-attention continuations kinetics dataset

发现论文，激发创造

用于生成高保真长视频的潜在视频扩散模型

该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架，可在有限的计算预算下生成更真实、更长的视频，同时提供了大规模文本到视频生成的扩展应用。

Nov, 2022

神经网络视频压缩的分层自回归建模

本文通过将自回归生成模型与有损视频压缩任务联系起来，提出了一种基于机器学习的视频压缩方法。大规模视频数据的全面评估表明，在视频数据的压缩比率及失真质量上，该方法优于传统的基于机器学习和基于传统技术的方法。

Oct, 2020

基于变换的大规模数据对抗性视频预测

本文通过对辩别器分解的系统实证研究，提出了一种结构，使得其收敛速度和性能都优于之前的方法，并分析了生成器中的循环单元，提出了一种新的循环单元，可以根据预测的动态特征转换其过去的隐藏状态，包括处理去除、场景改变等复杂行为，最终的模型在大规模的 Kinetics-600 数据集上，获得了卓越的性能。

Mar, 2020

潜在视频变换器

本文提出了一种使用潜在空间进行视频生成的方法，采用自回归技术预测未来帧的潜在表示，经实验证明其相较于以前的方法在减少计算资源需求的同时，生成质量也得到了保证。

Jun, 2020

ARVideo：用于自监督视频表示学习的自回归预训练

该论文介绍了一种新的自我监督视频表示学习框架 ARVideo，其中通过自回归方式预测下一个视频令牌，将自回归视频令牌按照时空间隔进行聚类，并采用随机化时空预测顺序来提高学习效果，实验证明 ARVideo 是一种有效的自我监督视频表示学习范式，具有更高的训练效率。

May, 2024

随机潜在残差视频预测

介绍了一种基于残差更新规则的新型随机时间模型，可用于视频预测，并在复杂数据集上胜过先前的最先进方法。

Feb, 2020

大规模随机循环神经网络的高保真视频预测

该研究通过进行大规模的实证研究，针对视频帧预测问题，提出了一种不同于以往手工设计架构的方法：尽可能地降低归纳偏差，同时最大化网络容量，该方法表现良好并在三个不同数据集上进行了验证：建模物体交互、建模人类运动和建模汽车驾驶。

Nov, 2019

ViD-GPT：在视频扩散模型中引入 GPT 风格的自回归生成

利用巨大语言模型和 GPT，我们将因果生成引入视频扩散模型中，通过引入因果时序注意力和以帧为提示的设计，我们提出了 Video Diffusion GPT（ViD-GPT），能够在生成每个时刻的帧时获取来自之前所有生成帧的长期上下文。通过引入 kv-cache 机制，我们还能够消除重叠帧的冗余计算，显著提高了推理速度。广泛的实验证明，我们的 ViD-GPT 在长视频生成方面在定量和定性上均取得了最先进的性能。

Jun, 2024

利用整体属性控制的概率视频生成

提出了一种基于变分自编码器和循环神经网络的视频生成和未来预测框架，通过时间条件抽样和属性控制的方式提高视频生成的一致性和质量，能够在给定属性和 / 或第一帧的情况下生成多样但高度一致的视频序列。

Mar, 2018

改进的条件性 VRNNs 用于视频预测

本文提出了一种基于层次结构的潜变量模型来提高模型表达能力，减少模糊预测，用于视频序列的未来帧预测任务，经过实验证明本方法在不同数据集上优于现有的潜变量模型。

Apr, 2019