Jan, 2024
LRP-QViT:基于逐层相关传播的混合精度视觉Transformer量化
LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise
Relevance Propagation
TL;DRLRP-QViT 是一种基于可解释性的方法,为不同层分配混合精度位分配,该方法通过将局部相关性分数传播到所有层,计算层的贡献分数,进而通过剪切通道的量化消除严重的通道间差异。该方法在 ViT、DeiT 和 Swin transformer 模型上进行实验验证,结果表明在 4 位和 6 位量化情况下,我们的后训练量化方法超过了现有模型。