Feb, 2024

迈向超大规模 Transformer 的下一级后训练量化

TL;DR本文提出了一种新颖的 PTQ 算法 aespa,通过逐层量化实现高效性,同时考虑跨层依赖以保留注意力分数,通过对多种语言模型的广泛实验和复杂度分析,证明了 aespa 在量化 Transformer 模型时具备准确性和高效性。