重新审视分层方法，用于持久长期视频预测

ICLRApr, 2021

重新审视分层方法，用于持久长期视频预测

Revisiting Hierarchical Approach for Persistent Long-Term Video Prediction

Wonkwang Lee, Whie Jung, Han Zhang, Ting Chen, Jing Yu Koh...

TL;DR本文重新审视了视频预测中的分层模型，通过先估计语义结构序列，再通过视频到视频的转换将结构转化为像素，我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测，通过在汽车驾驶和人类舞蹈等三个数据集上的评估，证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动，并且取得了比现有方法长几数量级的预测时间，代码和完整视频可在此 https URL 获得。

Abstract

Learning to predict the long-term future of video frames is notoriously challenging due to inherent ambiguities in the distant future and dramatic amplifications of prediction error through time. Despite the recent advances in the literature, existing approaches are limited to moderate

video frames long-term future prediction hierarchical models semantic structures video-to-video translation

发现论文，激发创造

通过分层预测学习生成长期未来

本论文提出了一种层次化方法，以长期预测未来帧，通过预测输入帧中的高级结构，然后预测其未来的演变，并通过观察过去的单个帧和预测的高级结构来构建未来帧，提高了视频预测的效果，并在人类动作的长期像素级视频预测的任务上展现了较好的结果，超过了现有技术水平。

Apr, 2017

无监督层次化长期视频预测

本文提出了一种基于神经网络的 Hierarchical Encoder-Decoder 模型，通过对输入帧进行编码，预测高级别的特征，再通过解码器生成预测图像，同时采用了对抗性损失以训练预测器，该方法可以进行 20 秒预测，并在 Human 3.6M 数据集上取得了更好的结果。

Jun, 2018

健壮视频预测器的自然视频序列长期预测

预测高维视频序列是一个异常困难的问题，由于不确定性，给定视频序列的可能未来数量随时间呈指数增长，尤其在从有限世界的快照中预测复杂的自然视频场景时更为明显。本文介绍了一系列改进现有工作的方法，有助于创建鲁棒的视频预测器（RoViPs）。我们通过深度感知和基于不确定性的重建损失的组合，展示了高质量的短期预测能力。利用基于注意力的跳跃连接允许输入特征的长程空间移动，进一步提高性能。最后，我们展示了通过使预测器对其自身的预测错误具有鲁棒性，可以使用迭代的逐步预测任务生成非常长且逼真的自然视频序列。

Aug, 2023

大规模随机循环神经网络的高保真视频预测

该研究通过进行大规模的实证研究，针对视频帧预测问题，提出了一种不同于以往手工设计架构的方法：尽可能地降低归纳偏差，同时最大化网络容量，该方法表现良好并在三个不同数据集上进行了验证：建模物体交互、建模人类运动和建模汽车驾驶。

Nov, 2019

基于几何和时间条件的长期期货预测

该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用，探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战，并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好的采样计划，实验结果证明了学习以时间戳为条件和预测使用不变模态的重要性。

Apr, 2024

预测未来的可预测性学习

该论文提出了一个基于超伯利几何的预测模型，能够从未标记的视频中学习可预测特征的层次结构，并在动作预测方面展现出层次表示法的关键作用。

Jan, 2021

随机潜在残差视频预测

介绍了一种基于残差更新规则的新型随机时间模型，可用于视频预测，并在复杂数据集上胜过先前的最先进方法。

Feb, 2020

组合式视频预测

本研究提出了一种基于场景物体的运动特征的像素级未来预测方法，采用隐式预测物体的未来状态并考虑它们之间的相互作用，通过全局轨迹水平的潜在随机变量对任务多模态进行克服，并在两个数据集上进行了实证验证。

Aug, 2019

考虑长期运动趋势的视频预测的状态空间分解模型

通过自适应分解的方法，我们提出了一种状态空间分解的随机视频预测模型，将整体视频帧生成分解为确定性外观预测和随机运动预测，从而增强模型对动态场景的泛化能力。实验结果表明，我们的模型在多个数据集上优于基线模型。

Apr, 2024

深度多尺度视频预测：超越均方误差

通过卷积网络、对抗训练和特征学习等策略，实现了未来图像预测

Nov, 2015