CVPRApr, 2020

扩展结构提高视频识别效率的 X3D

TL;DR本文提出了 X3D,一个高效的视频网络家族,可沿多个网络轴(在空间、时间、宽度和深度方面)逐步扩展微小的 2D 图像分类架构。采用类似于机器学习中的特征选择方法的简单逐步网络扩展方法,在每个步骤中扩展单个轴,从而实现对于复杂性的良好准确性权衡。通过向前递推扩展和向后收缩,将 X3D 扩展到特定目标复杂性。与以前的工作相比,X3D 实现了最先进的性能,同时需要较少的乘加和参数。我们最令人惊讶的发现是,具有高空间时间分辨率的网络可以表现出色,同时在网络宽度和参数方面非常轻量化。我们在视频分类和检测基准测试上报告了具有竞争力的准确性,代码将可在此 https URL 上获得。