Jul, 2017

聚合帧级特征用于大规模视频分类

TL;DR该研究介绍了在大规模 YouTube-8M 数据集上定义的多标签分类问题的系统的开发,其中使用了多种技术来聚合提供的帧级特征表示并生成视频级预测,包括多种变体的循环神经网络和广义 VLAD,以及多种融合策略来探索模型间的互补性。在官方指标 GAP@20 中,我们最佳的融合模型在公共测试数据的 50% 上达到了 0.84198,在私人测试数据的 50% 上达到了 0.84193,在 650 支队伍中排名第 4。