本文介绍了一种新的任务,即预测未来帧的语义分割,并研发了一种基于自回归卷积神经网络的方法。该方法针对城市街景数据集进行了试验,结果表明,直接预测未来的分割比预测并分割未来的 RGB 帧要好得多,并且可信度更高。
Mar, 2017
提出了一种基于编码器 - 解码器网络的视频未来语义分割预测方法,使用先前的视频帧,仅利用 RGB 数据,利用知识蒸馏的训练框架预测未来场景的语义分割,并在 Cityscapes 和 Apolloscape 上取得了比基线和现有最先进方法更好的结果。
Apr, 2019
该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用,探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战,并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好的采样计划,实验结果证明了学习以时间戳为条件和预测使用不变模态的重要性。
Apr, 2024
该研究提出了一种基于压缩视频表示学习的端到端事件边界检测新方法,该方法利用压缩域中的丰富信息进行特征提取和边界检测,并在 Kinetics-GEBD 数据集上进行了广泛的实验,取得了与最先进方法相当的结果,并具有更快的运行速度。
Mar, 2022
通过卷积网络、对抗训练和特征学习等策略,实现了未来图像预测
Nov, 2015
本文重新审视了视频预测中的分层模型,通过先估计语义结构序列,再通过视频到视频的转换将结构转化为像素,我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测,通过在汽车驾驶和人类舞蹈等三个数据集上的评估,证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动,并且取得了比现有方法长几数量级的预测时间,代码和完整视频可在此 https URL 获得。
Apr, 2021
本研究提出了一种基于场景物体的运动特征的像素级未来预测方法,采用隐式预测物体的未来状态并考虑它们之间的相互作用,通过全局轨迹水平的潜在随机变量对任务多模态进行克服,并在两个数据集上进行了实证验证。
Aug, 2019
预测高维视频序列是一个异常困难的问题,由于不确定性,给定视频序列的可能未来数量随时间呈指数增长,尤其在从有限世界的快照中预测复杂的自然视频场景时更为明显。本文介绍了一系列改进现有工作的方法,有助于创建鲁棒的视频预测器(RoViPs)。我们通过深度感知和基于不确定性的重建损失的组合,展示了高质量的短期预测能力。利用基于注意力的跳跃连接允许输入特征的长程空间移动,进一步提高性能。最后,我们展示了通过使预测器对其自身的预测错误具有鲁棒性,可以使用迭代的逐步预测任务生成非常长且逼真的自然视频序列。
Aug, 2023
利用背景场景和移动物体的非刚性变形和仿射变换对未来视频帧进行预测,实现较低的变形失真,并在 Cityscapes 和 KITTI 数据集上呈现更高的视觉质量和准确性。
Apr, 2020
本研究探讨基于单张静态图片生成连续多个未来视频帧的问题,提出了基于多流模型预测和合成的方法。通过 3D 卷积学习了空间 - 时间关系,预测的结果更加接近真实视频的流形形态,相比现有方法性能更好、多样性更强且能获得更高的人类视觉评估。
Jul, 2018