CVPRMay, 2023

高效 ViT: 带级联分组注意力的内存高效视觉 Transformer

TL;DR本研究提出一种高速的视觉 Transformer 模型 EfficientViT,通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得良好的平衡。