视频场景理解的概率未来预测
为了预测智能与健壮的复杂动态环境下未来的多个目标路径,该论文提出了基于概率的框架来学习表示语义多模态未来的潜在变量,其中利用动态基于注意力的状态编码器学习编码智能体之间的交互,可被用于车辆轨迹预测。
Nov, 2019
提出了一种基于编码器 - 解码器网络的视频未来语义分割预测方法,使用先前的视频帧,仅利用 RGB 数据,利用知识蒸馏的训练框架预测未来场景的语义分割,并在 Cityscapes 和 Apolloscape 上取得了比基线和现有最先进方法更好的结果。
Apr, 2019
本研究提出了一种基于场景物体的运动特征的像素级未来预测方法,采用隐式预测物体的未来状态并考虑它们之间的相互作用,通过全局轨迹水平的潜在随机变量对任务多模态进行克服,并在两个数据集上进行了实证验证。
Aug, 2019
该研究使用条件变分自编码器解决了计算机视觉系统中像素级别预测未来事件的问题,并通过训练多样的真实视频数据成功预测了大量场景中的行为,并且可应用于语义视觉任务。
Jun, 2016
本文介绍了一种新的任务,即预测未来帧的语义分割,并研发了一种基于自回归卷积神经网络的方法。该方法针对城市街景数据集进行了试验,结果表明,直接预测未来的分割比预测并分割未来的 RGB 帧要好得多,并且可信度更高。
Mar, 2017
本文提出了将视频观察结果分解为静态和动态部分,分别建模于场景结构和车辆主体运动、动态物体运动,来分离结构和运动的影响,从而更好地预测复杂驾驶场景中的未来运动。
Mar, 2022
该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用,探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战,并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好的采样计划,实验结果证明了学习以时间戳为条件和预测使用不变模态的重要性。
Apr, 2024
利用背景场景和移动物体的非刚性变形和仿射变换对未来视频帧进行预测,实现较低的变形失真,并在 Cityscapes 和 KITTI 数据集上呈现更高的视觉质量和准确性。
Apr, 2020
本文的目的在于提出一种名为 SV2P 的模型,该模型在真实世界的视频数据中获得了可靠的、有多个可行未来的预测结果,相比于传统的视频预测模型,我们的模型明显提升了预测效果。
Oct, 2017