Apr, 2020

大规模数据集是否可以进一步增强时空三维卷积神经网络?

TL;DR在视频识别中,使用大规模视频数据集和 3D CNN 来改善空时 3D CNN 的性能。通过构建数据集和扩充视频数据集的方法,将网络深度增加到 200 层,并使用 ResNet,使 Kinetics-700 和混合数据集预训练模型的识别性能提高到 200 层,而 Kinetics-400 预训练模型无法成功优化 200 层的架构。