Aug, 2021

基于位移切块的时空表示学习变压器

TL;DR本研究针对视频分类问题, 提出了一种基于 Transformer 与自注意力机制的空时表示学习方法,其中采用 shifted chunk Transformer 对视频帧间数据进行建模,通过局部到全局的多层次学习,构建了视频片段编码器,加强了长期时间依赖的建模能力,并在 Kinetics-400、Kinetics-600、UCF101 和 HMDB51 四个数据集上取得了优于现有最优结果的性能。