Jul, 2024

视觉Transformer后训练量化的错误减少

TL;DR提出了ERQ,一种两步PTQ方法,通过优化激活和权重量化,逐步减小量化误差,并在W3A4 ViT-S模型上的准确性上超过了最先进的GPTQ方法22.36%。