Jan, 2022

多方位整合强化视频表征学习

TL;DR本文提出了一个名为MUFI的新学习框架,用于从多方面的标签中学习视频表示,以反映完整的视频内容。通过在四个大规模视频数据集和两个图像数据集上使用MUFI框架学习3D CNN,可以改善视频表示的能力,并在若干下游视频应用程序上实现更好的表现。