ICMLJul, 2024

视觉 Transformer 后训练量化的错误减少

TL;DR提出了 ERQ,一种两步 PTQ 方法,通过优化激活和权重量化,逐步减小量化误差,并在 W3A4 ViT-S 模型上的准确性上超过了最先进的 GPTQ 方法 22.36%。