ICCVNov, 2017

使用伪 3D 残差网络学习时空表示

TL;DR本文提出了一种利用 4 个 Pseudo-3D 残差块构建的 Pseudo-3D Residual Net (P3D ResNet) 架构,并将其应用于视频分类问题中,克服了 3D CNN 的计算成本及内存需求高的问题,通过将空间卷积和时间卷积组合的方式显著提高了视频图像识别和分类的准确性。