Nov, 2023

TransNeXt:用于视觉 Transformer 的强大视觉感知

TL;DR通过仿生设计的令牌混合器,模拟生物视觉和持续眼动,提出聚合注意力机制(Aggregated Attention),使特征图上的每个令牌具有全局感知能力。同时,结合学习性令牌、卷积 GLU 机制,构建新的视觉主干网络 TransNeXt,实验结果表明其在多个模型尺寸上实现了最先进的性能。