利用背景场景和移动物体的非刚性变形和仿射变换对未来视频帧进行预测,实现较低的变形失真,并在 Cityscapes 和 KITTI 数据集上呈现更高的视觉质量和准确性。
Apr, 2020
本文开发了一个双模 GAN 架构,采用双学习机制,明确地执行未来帧预测与视频中像素流的一致性,该模型通过新的概率运动编码器处理不同像素位置的自然运动不确定性,并使用对抗训练确保未来帧的预测及光流的预测具有真实感,实验证明该模型性能明显优于最先进的方法,具有较强的泛化能力。
Aug, 2017
介绍了一种新颖的行为条件视频生成框架 (ACVG),通过深度双发生器 - 行为者结构探究行为与生成的图像帧之间的关系,以机器人的行为为条件生成视频序列,从而在动态环境中探索和分析视觉和行为如何相互影响。通过对室内机器人运动数据集进行全面实证研究和详细消融研究,评估了该框架在长期视频生成中的有效性与其他最先进的框架的比较。
Apr, 2024
本文介绍了一种基于历史运动数据的视频预测模型,该模型在考虑动态背景的挑战性真实世界自动驾驶数据集上表现优异,相较于现有的随机模型表现显著提升。
Aug, 2021
本研究提出了一个简单而有效的框架,可以通过利用前序训练数据中的潜在分布来预测合理的未来态势。该框架融合了一种新颖的优化方案,并且在量化和定性方面的实验中得到了显著的提高。同时,我们的方法可以与现有的随机预测模型无缝集成,具有预测未见类别运动的潜力。
Jul, 2020
该论文提出了一种基于高层抽象建模视频预测问题的方法,利用人体姿态探测器作为监督信号,将视频预测问题分解为两个离散步骤,明确建模场景中的高层次结构,使用变分自编码器 (VAE) 建模场景中活动对象的潜在未来运动,并将生成的未来姿势作为条件输入给生成对抗网络 (GAN) 预测未来视频帧,该方法通过呈现的定量和定性评估表明,其优于时下流行的视频预测方法。
Apr, 2017
本文提出了一个两阶段的生成框架来解决图像到视频转换的问题,其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果,证明了我们方法的有效性。
Jul, 2018
本文讨论了使用卷积神经网络预测自主汽车,无人机和其他机器人的未来出现,实现了可以在任意时间预测未来外观的功能。
Feb, 2017
利用大量未标记的视频来学习场景动态的模型,提出了一种具有时空卷积结构的生成对抗网络来生成视频,该模型能够更好地预测静态图像的合理未来,并且能够识别动作的有用特征,这表明场景动态是表示学习的一个有前途的信号。
Sep, 2016
该研究提出了一种架构和训练方案,通过显式地建模去除和捕捉视频中语义一致的区域的演变来预测视频帧。
Apr, 2021