时钟变分自编码器

Feb, 2021

Clockwork Variational Autoencoders

Vaibhav Saxena, Jimmy Ba, Danijar Hafner

TL;DR介绍了 Clockwork VAE (CW-VAE) 作为视频预测模型，通过利用层次潜变量和时间抽象来处理长期依赖关系，对多个视频预测数据集进行了测试，并在预测远期的效果方面超过了现有的顶尖视频预测模型，同时还提出了一个长期视频预测的 Minecraft 基准。

Abstract

deep learning has enabled algorithms to generate realistic images. However, accurately predicting long video sequences requires understanding long-term dependencies and remains an open challenge. While existing video pr

deep learning video prediction hierarchical latents temporal abstraction long-term dependencies

发现论文，激发创造

改进的条件性 VRNNs 用于视频预测

本文提出了一种基于层次结构的潜变量模型来提高模型表达能力，减少模糊预测，用于视频序列的未来帧预测任务，经过实验证明本方法在不同数据集上优于现有的潜变量模型。

Apr, 2019

大规模视频预测的贪心分层变分自编码器

介绍了一种基于 Greedy Hierarchical Variational Autoencoders (GHVAEs) 的高保真度视频预测模型，能够解决 GPU 或 TPU 的内存限制和大规模视频预测的优化难题，并在四个视频数据集上取得了 17-55% 的预测性能提升和 35-40% 更高的成功率。

Mar, 2021

利用 VQVAE 模型预测视频

本文提出了一种基于 VQ-VAE 的视频预测方法，将高分辨率视频压缩为一组分层多尺度离散潜在变量，然后应用可扩展自回归生成模型，相对于先前的工作，更关注大规模多样化的数据集，并使用人工评估验证了其效果。

Mar, 2021

一种用于学习音乐长期结构的分层潜变量模型

本文介绍了一种新的变分自编码器模型 MusicVAE，利用层次化解码器结构用于序列数据建模，解决了长程序列结构状态建模的问题，并实现了更好的采样、插值和重构表现。

Mar, 2018

用变分自编码器从静态图像中预测不确定的未来

该研究使用条件变分自编码器解决了计算机视觉系统中像素级别预测未来事件的问题，并通过训练多样的真实视频数据成功预测了大量场景中的行为，并且可应用于语义视觉任务。

Jun, 2016

离散序列自编码器

这篇论文介绍了一种针对高维时序数据（如视频或音频）的 VAE 模型架构，学习了数据的潜在表示，可以近似地分解潜在的时间相关特征（动态）和随时间保持不变的特征（内容），从而进行内容和动态的部分控制，并给出了在人工生成的卡通视频片段和声音记录上的实验证据，进一步论证了随机 RNN 模型相对于确定性 RNN 对长序列的压缩与生成的效率更高的假设。

Mar, 2018

有条件流变分自编码器用于结构化序列预测

介绍了一种新的结构化序列预测方法 —— 有条件流变分自编码器 (CF-VAE)，使用新的条件归一化流先验捕获复杂的多模态条件分布；同时，提出两种新的正则化方案，使训练更加稳定。在 MNIST 序列、斯坦福无人机和 HighD 三个数据集上的实验证明，该方法在不同评估指标方面均取得了最新的结果。

Aug, 2019

重新审视分层方法，用于持久长期视频预测

本文重新审视了视频预测中的分层模型，通过先估计语义结构序列，再通过视频到视频的转换将结构转化为像素，我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测，通过在汽车驾驶和人类舞蹈等三个数据集上的评估，证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动，并且取得了比现有方法长几数量级的预测时间，代码和完整视频可在此 https URL 获得。

Apr, 2021

复杂动态的变分编码

使用时间滞后变分自编码器（VDE）对复杂的非线性蛋白质折叠等过程进行降维，并通过 saliency mapping 方法分析 VDE 所选择的用来描述动态过程的特征。

Nov, 2017

无监督层次化长期视频预测

本文提出了一种基于神经网络的 Hierarchical Encoder-Decoder 模型，通过对输入帧进行编码，预测高级别的特征，再通过解码器生成预测图像，同时采用了对抗性损失以训练预测器，该方法可以进行 20 秒预测，并在 Human 3.6M 数据集上取得了更好的结果。

Jun, 2018