Aug, 2023

选择哪种 Transformer:视觉 Transformer 效率的比较分析

TL;DR对视觉 Transformer 及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现 ViT 在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力 - CNN 模型表现良好,模型大小的缩放比图像大小更为重要,FLOPS 与训练内存之间存在强正相关性。