该研究通过进行大规模的实证研究,针对视频帧预测问题,提出了一种不同于以往手工设计架构的方法:尽可能地降低归纳偏差,同时最大化网络容量,该方法表现良好并在三个不同数据集上进行了验证:建模物体交互、建模人类运动和建模汽车驾驶。
Nov, 2019
本文提出了一种动态推断方法,从网络深度和输入视频帧数的角度来提高推断效率,通过在输入帧和计算图的深度之间建立将预测模块放置在预先选择的检查点上,并按照预定义的路径逐步在网格上进行推断,可在中途进行预测和提前停止。通过实例化三个动态推断框架并使用两个知名的骨干卷积神经网络,证明了新方法的优越性。
Feb, 2020
该文提出了一种基于可学习相关算子的替代方法,用于在视频中识别动作,并成功地应用在行为识别的多个数据集上,表现比流行的二元网络更加出色并且速度更快。
Jun, 2019
通过使用深度残差网络结构,利用分层预测和自上而下的连接方法,结合对抗和感性代价函数,提高了基于视频预测的性能以及更真实的图像细节和纹理,特别是在快速相机运动下,未来视频帧的预测性能优于现有基线。
Mar, 2020
介绍了一种基于残差更新规则的新型随机时间模型,可用于视频预测,并在复杂数据集上胜过先前的最先进方法。
本文提出了一种新颖的框架 Temporal Recurrent Network (TRN) 来模拟视频帧的时间上下文,在线执行行动检测并预测即将发生的行动,实现了累积历史证据和预测未来信息相结合的在线识别方式,并在 HDD、TVSeries 和 THUMOS'14 三个数据集上进行评估,表明 TRN 的性能显著优于现有技术。
Nov, 2018
本论文提出和评估了几个深度神经网络架构,用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法,包括卷积时间特征池化和循环神经网络结构,该论文指出最佳神经网络在 Sports 1 million 数据集(73.1%对 60.9%)和 UCF-101 数据集中(88.6%对 88.0%)及无附加光流信息(82.6%对 72.8%)上明显性能提高。
Mar, 2015
本文提出了一个两阶段的生成框架来解决图像到视频转换的问题,其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果,证明了我们方法的有效性。
Jul, 2018
提出了一种统一的时间卷积网络方法,可以逐层捕捉低、中、高层次时间尺度上的关系,在三个公共操作分割数据集上以视频或传感器数据实现了优越或竞争性能,并且可以在较短时间内训练完成。
Aug, 2016
通过建立一个具有预测编码特点的预测神经网络 (PredNet),本文探讨了将预测未来的视频帧作为无监督学习的规则来学习视觉世界结构的问题。 在对计算机生成的物体的运动进行鲁棒的学习的同时,也能够缩短学习视野并从中获得内部表示。此外,这种网络架构也能够将检测到的流和视觉场景中的物体运动进行深度学习,为估算自我位置提供支持。 综上所述,预测是无监督学习的强大框架之一,能够进行隐式的物体和场景结构学习。
May, 2016