Aug, 2020

通过发掘时空统计信息进行自监督视频表示学习

TL;DR本文旨在提出一种自监督视频表示学习的新型先验任务,通过计算一系列时空统计摘要信息,利用神经网络训练来产生摘要信息,采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度,在四个3D骨干网络上的实验结果表明,该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。