Mar, 2023

一种用于 Vision Transformer 的快速无需训练的压缩框架

TL;DR提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架,其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法,在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升,训练时间比现有方法节省两个数量级。