Dec, 2014

使用三维卷积神经网络学习时空特征

TL;DR通过在大规模监督视频数据集上使用训练的深度三维卷积神经网络(3D ConvNets)提出了一种简单而有效的时空特征学习方法。我们的成果有三个:1)相对于 2D ConvNets,3D ConvNets 更适用于时空特征学习;2)所有层中具有小的 3x3x3 卷积核的同构体系结构是 3D ConvNets 中表现最佳的体系结构之一;3)我们学到的特征 —— 即 C3D(卷积 3D)—— 连同一个简单的线性分类器,在 4 个不同的基准测试中优于最先进的方法,并与其他 2 个基准测试中的最佳方法相当。此外,这些特征紧凑:只需 10 维便能在 UCF101 数据集上达到 52.8%的准确率,由于 ConvNets 的快速推理,计算效率也非常高。最后,它们在概念上非常简单易用且易于训练和使用。