Feb, 2016

ImageNet Shuffle: 视频事件检测的重新组织预训练

TL;DR用深度卷积神经网络所学习的表达来实现视频事件检测,并探究如何利用完整的 ImageNet 层次结构进行深度网络的预训练,其中引入一种基于 ImageNet 全部 21,814 个类别和超过 14 百万图像的自下而上和自上而下的方法以解决过于特定类别和类别图像数量不足的问题,并通过对 TRECVID Multimedia Event Detection 2013 和 2015 数据集的实验验证,得到了超过标准预训练和融合其他模态的结果,取得了最先进的事件检测结果。