使用学习的先验知识生成随机视频

Feb, 2018

使用学习的先验知识生成随机视频

Stochastic Video Generation with a Learned Prior

Emily Denton, Rob Fergus

TL;DR本文提出一种无监督视频生成模型，该模型学习给定环境中的不确定性先验模型，通过从先验分布中取样并与未来帧的确定性估计相结合来生成视频帧。该方法方便易行，能够在各种数据集上进行端到端训练，并且即使在很多帧进入未来的情况下，样本生成的结果也经过了充分的测试且清晰度较高，比现有的方法更具优势。

Abstract

Generating video frames that accurately predict future world states is challenging. Existing approaches either fail to capture the full distribution of outcomes, or yield blurry generations, or both. In this paper we introduce an unsupervised video generation model that learns a prior

video generation uncertainty unsupervised learning future frame end-to-end

发现论文，激发创造

基于随机帧预测的视觉表示学习

通过预测未来帧进行图像表示的无监督学习是一个有前景的方向，但仍然面临挑战。为了解决这一挑战，在本文中，我们重新审视了学习捕捉帧预测的不确定性的随机视频生成的思想，并探索了其在表示学习中的有效性。我们设计了一个框架，训练一个随机帧预测模型，学习帧之间的时间信息。此外，为了学习每一帧中的密集信息，我们引入了一个辅助的带蒙版图像建模目标，以及一个共享的解码器架构。我们发现这种架构能够以协同和高效的方式结合两个目标。我们在视频标签传播和基于视觉的机器人学习领域展示了我们框架的有效性，如视频分割、姿态跟踪、基于视觉的机器人运动和操作任务等。项目网页提供了代码：this https URL。

Jun, 2024

学习动作先验的视频生成

在考虑了相机运动或动作作为观察图像状态的一部分，并将图像和动作建模在多模态学习框架内的基础上，我们提出了三个模型：VG-LeAP 使用变分推断学习图像 - 动作潜在先验并将图像 - 动作对作为单一潜在随机过程生成的扩展状态；Causal-LeAP 建立了动作与观察到的图像帧之间的因果关系，学习基于观察到的图像状态的动作先验；RAFI 将增强的图像 - 动作状态概念与扩散生成过程中的流匹配相结合，证明了这种动作条件下的图像生成概念可以扩展到其他基于扩散的模型。通过对我们的新视频动作数据集 RoAM 进行详细的实证研究，我们强调了多模态训练在部分可观察视频生成问题中的重要性。

Jun, 2024

随机变分视频预测

本文的目的在于提出一种名为 SV2P 的模型，该模型在真实世界的视频数据中获得了可靠的、有多个可行未来的预测结果，相比于传统的视频预测模型，我们的模型明显提升了预测效果。

Oct, 2017

VideoFlow: 用于随机视频生成的条件流模型

我们提出了一种基于归一化流的多帧视频预测方法，可以直接优化数据可能性并生成高质量的随机预测，该方法可以实现对于视频生成建模的可行且竞争性的方法。

Mar, 2019

视频预测综述：从确定性到生成方法

该论文综述了视频预测领域的历史和现代工作，包括广泛应用的数据集和算法，并提出了一个以视频预测算法的随机性为中心的新的分类方法。该分类方法强调了从确定性到生成性预测方法的渐进转变，突显了方法的重大进展和转变。

Jan, 2024

随机对抗视频预测

本文探讨了两种机器学习模型用于生成视频未来帧预测的方法，并将它们相结合得到更真实、多样性更好的预测结果。

Apr, 2018

基于层级变分神经不确定模型的随机视频预测

提出一种基于神经不确定性量化器（NUQ）的层次化变分框架，并利用深度贝叶斯图模型，从而准确地预测视频的未来帧，同时可以权衡 MSE 丢失，从而比现有的模型更有效地训练，提高生成视频的质量和多样性。

Oct, 2021

随机潜在残差视频预测

介绍了一种基于残差更新规则的新型随机时间模型，可用于视频预测，并在复杂数据集上胜过先前的最先进方法。

Feb, 2020

基于变换的大规模数据对抗性视频预测

本文通过对辩别器分解的系统实证研究，提出了一种结构，使得其收敛速度和性能都优于之前的方法，并分析了生成器中的循环单元，提出了一种新的循环单元，可以根据预测的动态特征转换其过去的隐藏状态，包括处理去除、场景改变等复杂行为，最终的模型在大规模的 Kinetics-600 数据集上，获得了卓越的性能。

Mar, 2020

使用学习先验的无对抗视频合成

研究使用非对抗性学习方法，通过联合优化隐变量空间、递归神经网络的权重和生成器，从隐变量向量中生成高质量视频。

Mar, 2020