Aug, 2021

视频分类的 Token Shift Transformer

TL;DR提出了一种基于 Token Shift Module 的 Transformer 操作,用于学习 3D 视频表示,以在消除卷积神经网络的同时具有计算效率。实验证明,该方法比现有的卷积方法取得更好的结果。