CVPRApr, 2017

ActionVLAD:学习时空聚合以进行动作分类

TL;DR本文提出了一种新的视频表示方法,通过整合基于学习的时空特征聚合的最先进的双流网络,对整个视频的局部卷积特征进行聚合,探究了不同的空间和时间池化策略,将不同流的信号合并。实验表明,我们的表示方法相较于基础架构提升了 13% 的分类性能,在 HMDB51、UCF101、Charades 视频分类基准上的性能均优于其他基线。