ECCVAug, 2020

基于 BERT 的 3D 卷积神经网络中的后期时间建模用于动作识别

TL;DR本研究将 3D 卷积和后期时间建模相结合,采用 BERT 层代替传统的时间全局平均池化层,以更好地利用 BERT 的注意力机制处理时序信息。研究表明,这一替换提高了许多流行的 3D 卷积架构的动作识别性能,并在 HMDB51 和 UCF101 数据集上均取得了最佳性能,分别为 85.10%和 98.69%的 top-1 准确率。