本文提出了一种新颖的深度学习架构,用于从视频中进行概率未来预测。该模型可以预测城市场景中的未来语义、几何和运动,并将此表示用于控制自动驾驶车辆。
Mar, 2020
利用背景场景和移动物体的非刚性变形和仿射变换对未来视频帧进行预测,实现较低的变形失真,并在 Cityscapes 和 KITTI 数据集上呈现更高的视觉质量和准确性。
Apr, 2020
本研究提出了一个简单而有效的框架,可以通过利用前序训练数据中的潜在分布来预测合理的未来态势。该框架融合了一种新颖的优化方案,并且在量化和定性方面的实验中得到了显著的提高。同时,我们的方法可以与现有的随机预测模型无缝集成,具有预测未见类别运动的潜力。
Jul, 2020
该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用,探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战,并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好的采样计划,实验结果证明了学习以时间戳为条件和预测使用不变模态的重要性。
Apr, 2024
为了预测智能与健壮的复杂动态环境下未来的多个目标路径,该论文提出了基于概率的框架来学习表示语义多模态未来的潜在变量,其中利用动态基于注意力的状态编码器学习编码智能体之间的交互,可被用于车辆轨迹预测。
Nov, 2019
本文重新审视了视频预测中的分层模型,通过先估计语义结构序列,再通过视频到视频的转换将结构转化为像素,我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测,通过在汽车驾驶和人类舞蹈等三个数据集上的评估,证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动,并且取得了比现有方法长几数量级的预测时间,代码和完整视频可在此 https URL 获得。
Apr, 2021
通过对视频场景内容及动态规律、语义等方面的先验知识进行分析和预处理,提出一种利用贝叶斯网络解决视频不同场景中的移动轨迹问题的方法,并在实验中证明了其有效性。
Mar, 2016
本文探讨了两种机器学习模型用于生成视频未来帧预测的方法,并将它们相结合得到更真实、多样性更好的预测结果。
Apr, 2018
提出了一种基于编码器 - 解码器网络的视频未来语义分割预测方法,使用先前的视频帧,仅利用 RGB 数据,利用知识蒸馏的训练框架预测未来场景的语义分割,并在 Cityscapes 和 Apolloscape 上取得了比基线和现有最先进方法更好的结果。
Apr, 2019
本文通过对辩别器分解的系统实证研究,提出了一种结构,使得其收敛速度和性能都优于之前的方法,并分析了生成器中的循环单元,提出了一种新的循环单元,可以根据预测的动态特征转换其过去的隐藏状态,包括处理去除、场景改变等复杂行为,最终的模型在大规模的 Kinetics-600 数据集上,获得了卓越的性能。