Jun, 2024

无需反向传播的注意力感知后训练量化

TL;DR提出了一种不依赖于反向传播的新型 PTQ 算法,通过开发具有注意力机制的 Hessian 矩阵来考虑层间依赖关系,从而显著优于传统的 PTQ 方法,特别是在低位宽情况下。