Oct, 2015

基于分解时空卷积网络的人类动作识别

TL;DR本文提出了一种名为 FstCN 的新型 3D 深度架构,能够有效处理人类行为三维动态序列信号,并且利用转换和排列操作,将原始的三维卷积核学习分解为一系列二维和一维卷积核学习过程,同时提出了基于视频片段采样的有效训练和推断策略,在 UCF-101 和 HMDB-51 数据集上的表现比传统 CNN 方法更好,与最近一种利用辅助训练视频的方法相当。