无监督层次化长期视频预测

ICMLJun, 2018

Hierarchical Long-term Video Prediction without Supervision

Nevan Wichers, Ruben Villegas, Dumitru Erhan, Honglak Lee

TL;DR本文提出了一种基于神经网络的 Hierarchical Encoder-Decoder 模型，通过对输入帧进行编码，预测高级别的特征，再通过解码器生成预测图像，同时采用了对抗性损失以训练预测器，该方法可以进行 20 秒预测，并在 Human 3.6M 数据集上取得了更好的结果。

Abstract

Much of recent research has been devoted to video prediction and generation, yet most of the previous works have demonstrated only limited success in generating videos on short-term horizons. The hierarchical video pred

video prediction long-term prediction neural network encoder-decoder adversarial loss

发现论文，激发创造

通过分层预测学习生成长期未来

本论文提出了一种层次化方法，以长期预测未来帧，通过预测输入帧中的高级结构，然后预测其未来的演变，并通过观察过去的单个帧和预测的高级结构来构建未来帧，提高了视频预测的效果，并在人类动作的长期像素级视频预测的任务上展现了较好的结果，超过了现有技术水平。

Apr, 2017

重新审视分层方法，用于持久长期视频预测

本文重新审视了视频预测中的分层模型，通过先估计语义结构序列，再通过视频到视频的转换将结构转化为像素，我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测，通过在汽车驾驶和人类舞蹈等三个数据集上的评估，证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动，并且取得了比现有方法长几数量级的预测时间，代码和完整视频可在此 https URL 获得。

Apr, 2021

基于变换的大规模数据对抗性视频预测

本文通过对辩别器分解的系统实证研究，提出了一种结构，使得其收敛速度和性能都优于之前的方法，并分析了生成器中的循环单元，提出了一种新的循环单元，可以根据预测的动态特征转换其过去的隐藏状态，包括处理去除、场景改变等复杂行为，最终的模型在大规模的 Kinetics-600 数据集上，获得了卓越的性能。

Mar, 2020

层次化先见之明：通过视觉子目标生成进行长时程任务的自监督学习

通过子目标生成和规划的分层视觉预见（HVF）框架，可以将任务分解成易于规划的片段，并自然地识别语义上有意义的状态作为子目标，在三个模拟的基于视觉的操作任务中，我们的方法实现了近 200% 的性能提升。

Sep, 2019

神经符号化视频搜索

使用视觉语言模型进行语义理解，通过状态机和时间逻辑进行长期演变的事件推理，提高了复杂事件识别的 F1 得分。

Mar, 2024

健壮视频预测器的自然视频序列长期预测

预测高维视频序列是一个异常困难的问题，由于不确定性，给定视频序列的可能未来数量随时间呈指数增长，尤其在从有限世界的快照中预测复杂的自然视频场景时更为明显。本文介绍了一系列改进现有工作的方法，有助于创建鲁棒的视频预测器（RoViPs）。我们通过深度感知和基于不确定性的重建损失的组合，展示了高质量的短期预测能力。利用基于注意力的跳跃连接允许输入特征的长程空间移动，进一步提高性能。最后，我们展示了通过使预测器对其自身的预测错误具有鲁棒性，可以使用迭代的逐步预测任务生成非常长且逼真的自然视频序列。

Aug, 2023

自然视频中大幅度改变帧的照片真实视频预测

通过使用深度残差网络结构，利用分层预测和自上而下的连接方法，结合对抗和感性代价函数，提高了基于视频预测的性能以及更真实的图像细节和纹理，特别是在快速相机运动下，未来视频帧的预测性能优于现有基线。

Mar, 2020

组合式视频预测

本研究提出了一种基于场景物体的运动特征的像素级未来预测方法，采用隐式预测物体的未来状态并考虑它们之间的相互作用，通过全局轨迹水平的潜在随机变量对任务多模态进行克服，并在两个数据集上进行了实证验证。

Aug, 2019

大规模随机循环神经网络的高保真视频预测

该研究通过进行大规模的实证研究，针对视频帧预测问题，提出了一种不同于以往手工设计架构的方法：尽可能地降低归纳偏差，同时最大化网络容量，该方法表现良好并在三个不同数据集上进行了验证：建模物体交互、建模人类运动和建模汽车驾驶。

Nov, 2019

基于几何和时间条件的长期期货预测

该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用，探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战，并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好的采样计划，实验结果证明了学习以时间戳为条件和预测使用不变模态的重要性。

Apr, 2024