Nov, 2018

NeXtVLAD:一种高效的神经网络,用于聚合基于帧的特征,实现大规模视频分类

TL;DR介绍了一种快速高效的网络结构NeXtVLAD,用于将帧级特征聚合成一个紧凑的特征向量以进行大规模视频分类,在第二个Youtube-8M视频理解挑战中,单个NeXtVLAD模型只使用少于80M的参数就实现了0.87846的GAP分数,在394个团队中排名第3。