Mar, 2024

ACC-ViT: 视觉 Transformer 中空洞卷积的回归

TL;DR通过从视觉感知中汲取灵感进行注意机制创新,Transformer 已经成为最先进的视觉架构。本文引入了一种融合区域和稀疏注意力的 Atrous Attention,它能够自适应地整合局部和全局信息,并保持层次关系,提出了一种通用的混合式视觉 Transformer 骨干网络 ACC-ViT,适用于标准视觉任务和移动规模版本,适用于具有小数据集的特定应用领域。