Jan, 2020

重构运动表示:使用 3D ConvNets 剩余帧进行更好的动作识别

TL;DR本文提出了一种使用残差帧来提取运动特征的快速且有效的方法,通过将 RGB 帧替换为残差帧,从而取得了在 UCF101 和 HMDB51 数据集上 20.5% 和 12.5% 的准确率提升,在三个基准数据集上,我们的两步解决方案达到了比那些使用额外的光流方法更好或相当的性能,特别是在 Mini-kinetics 数据集上表现优异,表明残差帧是提取运动特征的良好补充。