May, 2024

Athena:大规模语言模型的高效块级后训练量化方法,使用二阶矩阵导数信息

TL;DR提出了 Athena 算法,通过使用损失函数的曲率信息,将参数分组并进行迭代优化量化过程,通过更新模型参数和 Hessian 矩阵,在保持高准确性的同时实现显著的压缩,从而成为在各种环境中部署大型语言模型的实用解决方案。