CVPRJun, 2020

SmallBigNet: 为视频分类集成核心和上下文视角

TL;DR提出了一个称为 SmallBig network 的新颖卷积神经网络,它利用小视图和大视图的协作来学习视频表示。相对于传统的时间卷积,大视图可以从更广阔的三维感受野中提供最活跃的视频特征,从而为视频分类学习更加强大和有区别性的时空表示。同时,共享卷积核进一步提高了模型紧凑性并缓解了过拟合。在 Kinetics400、Something-Something V1 和 V2 等大规模视频基准测试中,SmallBig 网络在准确性和效率方面均优于许多最新的先进方法。