Sep, 2024

基于GPU张量核心的大型语言模型高效任意精度加速

TL;DR该研究解决了大型语言模型在高效推理过程中面临的挑战,尤其是在超低比特量化和内存管理方面的限制。提出了一种新颖的双极INT数据格式和任意精度矩阵乘法方案,显著提升了GPU张量核心的利用率,并通过高效的内存管理系统实现了最大化的执行速度。实验结果表明,该方法在矩阵乘法上可达到高达13倍的加速,并在大型语言模型中实现了高达6.7倍的推理加速。