ECCVMar, 2023

四边形注意力视觉 Transformer

TL;DR该研究提出了一种新颖的四边形注意力(QA)方法,将基于窗口的注意力扩展为一般的四边形公式,并将其整合到平面和分层视觉变换器中,提出了一种新的架构 QFormer,可用于分类、目标检测、语义分割和姿态估计等各种视觉任务,且具有较小的代码修改和可忽略的额外计算成本。