Nov, 2023

基于群组混合注意力的视觉 Transformer 的进展

TL;DR基于 Group-Mix Attention 的 GroupMixFormer 模型在图像分类、物体检测和语义分割方面表现出色,参数较现有模型更少,例如 GroupMixFormer-L 在 ImageNet-1K 上取得 86.2% 的 Top-1 准确率,GroupMixFormer-B 在 ADE20K 上取得 51.2% 的 mIoU。