ICLRJan, 2022

UniFormer:用于高效时空表示学习的统一 Transformer

TL;DR本研究提出了一种新型的视频分类模型 ——UniFormer,它集成了 3D 卷积和自注意力机制的优点,通过浅层和深层分别学习本地和全局特征,从而在计算量和准确性之间取得了理想的平衡,经实验证明该模型的泛化和针对性能均优于其他方法。