组合式视频预测

ICCVAug, 2019

Compositional Video Prediction

Yufei Ye, Maneesh Singh, Abhinav Gupta, Shubham Tulsiani

TL;DR本研究提出了一种基于场景物体的运动特征的像素级未来预测方法，采用隐式预测物体的未来状态并考虑它们之间的相互作用，通过全局轨迹水平的潜在随机变量对任务多模态进行克服，并在两个数据集上进行了实证验证。

Abstract

We present an approach for pixel-level future prediction given an input image of a scene. We observe that a scene is comprised of distinct entities that undergo motion and present an approach that operationalizes

future prediction scene entities motion multi-modality video prediction

发现论文，激发创造

视频场景理解的概率未来预测

本文提出了一种新颖的深度学习架构，用于从视频中进行概率未来预测。该模型可以预测城市场景中的未来语义、几何和运动，并将此表示用于控制自动驾驶车辆。

Mar, 2020

利用物体运动预测实现未来视频合成

利用背景场景和移动物体的非刚性变形和仿射变换对未来视频帧进行预测，实现较低的变形失真，并在 Cityscapes 和 KITTI 数据集上呈现更高的视觉质量和准确性。

Apr, 2020

基于示例指导的视频预测

本研究提出了一个简单而有效的框架，可以通过利用前序训练数据中的潜在分布来预测合理的未来态势。该框架融合了一种新颖的优化方案，并且在量化和定性方面的实验中得到了显著的提高。同时，我们的方法可以与现有的随机预测模型无缝集成，具有预测未见类别运动的潜力。

Jul, 2020

基于几何和时间条件的长期期货预测

该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用，探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战，并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好的采样计划，实验结果证明了学习以时间戳为条件和预测使用不变模态的重要性。

Apr, 2024

多元未来预测

为了预测智能与健壮的复杂动态环境下未来的多个目标路径，该论文提出了基于概率的框架来学习表示语义多模态未来的潜在变量，其中利用动态基于注意力的状态编码器学习编码智能体之间的交互，可被用于车辆轨迹预测。

Nov, 2019

重新审视分层方法，用于持久长期视频预测

本文重新审视了视频预测中的分层模型，通过先估计语义结构序列，再通过视频到视频的转换将结构转化为像素，我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测，通过在汽车驾驶和人类舞蹈等三个数据集上的评估，证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动，并且取得了比现有方法长几数量级的预测时间，代码和完整视频可在此 https URL 获得。

Apr, 2021

面向场景的动态预测知识转移

通过对视频场景内容及动态规律、语义等方面的先验知识进行分析和预处理，提出一种利用贝叶斯网络解决视频不同场景中的移动轨迹问题的方法，并在实验中证明了其有效性。

Mar, 2016

随机对抗视频预测

本文探讨了两种机器学习模型用于生成视频未来帧预测的方法，并将它们相结合得到更真实、多样性更好的预测结果。

Apr, 2018

未来分割

提出了一种基于编码器 - 解码器网络的视频未来语义分割预测方法，使用先前的视频帧，仅利用 RGB 数据，利用知识蒸馏的训练框架预测未来场景的语义分割，并在 Cityscapes 和 Apolloscape 上取得了比基线和现有最先进方法更好的结果。

Apr, 2019

基于变换的大规模数据对抗性视频预测

本文通过对辩别器分解的系统实证研究，提出了一种结构，使得其收敛速度和性能都优于之前的方法，并分析了生成器中的循环单元，提出了一种新的循环单元，可以根据预测的动态特征转换其过去的隐藏状态，包括处理去除、场景改变等复杂行为，最终的模型在大规模的 Kinetics-600 数据集上，获得了卓越的性能。

Mar, 2020