May, 2024
Athena:大规模语言模型的高效块级后训练量化方法,使用二阶矩阵导数信息
Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information
Yanshu Wang, Wenyang He, Tong Yang
TL;DR提出了 Athena 算法,通过使用损失函数的曲率信息,将参数分组并进行迭代优化量化过程,通过更新模型参数和 Hessian 矩阵,在保持高准确性的同时实现显著的压缩,从而成为在各种环境中部署大型语言模型的实用解决方案。