NeXtVLAD：一种高效的神经网络，用于聚合基于帧的特征，实现大规模视频分类

Nov, 2018

NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for Large-scale Video Classification

Rongcheng Lin, Jing Xiao, Jianping Fan

TL;DR介绍了一种快速高效的网络结构NeXtVLAD，用于将帧级特征聚合成一个紧凑的特征向量以进行大规模视频分类，在第二个Youtube-8M视频理解挑战中，单个NeXtVLAD模型只使用少于80M的参数就实现了0.87846的GAP分数，在394个团队中排名第3。

Abstract

This paper introduces a fast and efficient network architecture, nextvlad, to aggregate frame-level features into a compact feature vector