Mar, 2024

ACC-ViT: 视觉Transformer中空洞卷积的回归

TL;DR通过从视觉感知中汲取灵感进行注意机制创新,Transformer已经成为最先进的视觉架构。本文引入了一种融合区域和稀疏注意力的Atrous Attention,它能够自适应地整合局部和全局信息,并保持层次关系,提出了一种通用的混合式视觉Transformer骨干网络ACC-ViT,适用于标准视觉任务和移动规模版本,适用于具有小数据集的特定应用领域。