CVPRApr, 2024

学习视觉 Transformer 的相关结构

TL;DR我们引入了一种新的注意力机制,称为结构自注意力(StructSA),它利用注意力的键 - 查询交互中自然产生的丰富相关模式。使用结构自注意力作为主要构建模块,我们开发了结构视觉转换器(StructViT),并在图像和视频分类任务上评估其有效性,在 ImageNet-1K,Kinetics-400,Something-Something V1&V2,Diving-48 和 FineGym 数据集上取得了最先进的结果。