该研究旨在通过预测编码的概念以及诸如自动驾驶车辆之类的机器人应用,探索基于过去条件下生成未来传感器观测的任务。研究重点在于解决多模态未来视频建模的挑战,并利用图像扩散模型的大规模预训练来处理计算代价昂贵的视频处理问题。通过时间戳条件生成更好的采样计划,实验结果证明了学习以时间戳为条件和预测使用不变模态的重要性。
Apr, 2024
本文讨论了使用卷积神经网络预测自主汽车,无人机和其他机器人的未来出现,实现了可以在任意时间预测未来外观的功能。
Feb, 2017
我们提出了一种基于归一化流的多帧视频预测方法,可以直接优化数据可能性并生成高质量的随机预测,该方法可以实现对于视频生成建模的可行且竞争性的方法。
Mar, 2019
本研究介绍了双射门控循环单元,为计算机视觉中未来视频预测问题提供了一种有效的方法,能够使编码 / 解码器之间的状态共享并减少计算成本,达到了与最优方法相当的性能。
Dec, 2017
本研究提出了一种基于场景物体的运动特征的像素级未来预测方法,采用隐式预测物体的未来状态并考虑它们之间的相互作用,通过全局轨迹水平的潜在随机变量对任务多模态进行克服,并在两个数据集上进行了实证验证。
Aug, 2019
本文提出了一种基于无监督方法的视频帧预测技术,相比直接预测未来帧中每个像素点,本文预测未来帧的变换过程,同时提出了一种新的评估协议,该方法在 UCF-101 数据集上进行了验证,在参数和计算成本上更加高效。
Jan, 2017
本文通过对辩别器分解的系统实证研究,提出了一种结构,使得其收敛速度和性能都优于之前的方法,并分析了生成器中的循环单元,提出了一种新的循环单元,可以根据预测的动态特征转换其过去的隐藏状态,包括处理去除、场景改变等复杂行为,最终的模型在大规模的 Kinetics-600 数据集上,获得了卓越的性能。
Mar, 2020
通过卷积网络、对抗训练和特征学习等策略,实现了未来图像预测
Nov, 2015
本文提出了一个基于局部时空分离的有效空间 - 时间注意机制的 Transformer 块,用于视频未来帧预测,并构建了一个全自回归视频未来帧预测 Transformer 框架,另外还提出了一个非自回归视频预测 Transformer 框架,并引入对比特征损失来监督模型预测过程。本文是第一个在不同场景下对这两种基于注意力的视频未来帧预测模型进行正式比较的工作,所提出的模型在性能上与更复杂的现有模型竞争力相当。
Mar, 2022
本论文提出了一种通用框架 Masked Conditional Video Diffusion(MCVD),使用基于概率条件得分的去噪扩散模型来处理所有视频合成任务,通过随机和独立的遮罩对历史或未来的帧进行条件设置,训练出一个能够执行广泛视频任务的单个模型,包括:未来 / 过去预测,无条件生成和插值。实验结果表明,该方法在标准视频预测和插值基准测试中产生了最先进的结果。
May, 2022