Aug, 2023

选择哪种Transformer:视觉Transformer效率的比较分析

TL;DR对视觉Transformer及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现ViT在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力-CNN模型表现良好,模型大小的缩放比图像大小更为重要,FLOPS与训练内存之间存在强正相关性。