CVPRNov, 2017

时空三维卷积神经网络能否重追二维卷积神经网络和 ImageNet 的历史?

TL;DR本研究旨在确定当前视频数据集是否有足够的数据来训练带有时空三维卷积核的非常深的卷积神经网络。我们研究了从相对浅的到非常深的各种三维卷积神经网络的架构,并得出结论:Kinetics 数据集具有训练深度三维卷积神经网络的足够数据,与 ImageNet 上的 2D ResNets 类似,ResNeXt-101 在 Kinetics 测试集上达到了 78.4%的平均准确率。预训练的简单 3D 架构优于复杂的 2D 架构,并且预训练的 ResNeXt-101 分别在 UCF-101 和 HMDB-51 上达到了 94.5%和 70.2%的准确率。我们相信,将深度 3D 卷积神经网络与 Kinetics 数据集结合使用,将重温 2D 卷积神经网络和 ImageNet 的故事,并促进视频计算机视觉的进步。