本文通过对辩别器分解的系统实证研究,提出了一种结构,使得其收敛速度和性能都优于之前的方法,并分析了生成器中的循环单元,提出了一种新的循环单元,可以根据预测的动态特征转换其过去的隐藏状态,包括处理去除、场景改变等复杂行为,最终的模型在大规模的 Kinetics-600 数据集上,获得了卓越的性能。
Mar, 2020
该研究通过进行大规模的实证研究,针对视频帧预测问题,提出了一种不同于以往手工设计架构的方法:尽可能地降低归纳偏差,同时最大化网络容量,该方法表现良好并在三个不同数据集上进行了验证:建模物体交互、建模人类运动和建模汽车驾驶。
Nov, 2019
通过卷积网络、对抗训练和特征学习等策略,实现了未来图像预测
Nov, 2015
本文提出了一个两阶段的生成框架来解决图像到视频转换的问题,其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果,证明了我们方法的有效性。
Jul, 2018
本研究提出了一种端到端可训练的帧递归视频超分辨率框架,使用先前的高分辨率估计来超分辨率下一个帧,自然鼓励时态一致结果并降低计算成本。
Jan, 2018
本论文提出了一种层次化方法,以长期预测未来帧,通过预测输入帧中的高级结构,然后预测其未来的演变,并通过观察过去的单个帧和预测的高级结构来构建未来帧,提高了视频预测的效果,并在人类动作的长期像素级视频预测的任务上展现了较好的结果,超过了现有技术水平。
Apr, 2017
本文重新审视了视频预测中的分层模型,通过先估计语义结构序列,再通过视频到视频的转换将结构转化为像素,我们展示了用随机循环估算器模拟离散语义结构空间中的结构及其动态来进行成功的长期预测,通过在汽车驾驶和人类舞蹈等三个数据集上的评估,证明了我们的方法能够在非常长的时间范围内生成复杂的场景结构和运动,并且取得了比现有方法长几数量级的预测时间,代码和完整视频可在此 https URL 获得。
Apr, 2021
本研究提出了一种基于线性动态系统和非线性映射理论的预测 - 纠正神经网络模型,能够自适应地关注‘惊奇’的视频帧,优化学习效率。研究表明,该模型在三个挑战数据集上的表现与双流网络相当,而无需计算昂贵的光流技术。
利用背景场景和移动物体的非刚性变形和仿射变换对未来视频帧进行预测,实现较低的变形失真,并在 Cityscapes 和 KITTI 数据集上呈现更高的视觉质量和准确性。
Apr, 2020
介绍了一种基于残差更新规则的新型随机时间模型,可用于视频预测,并在复杂数据集上胜过先前的最先进方法。
Feb, 2020