Aug, 2024

LUT张量核心:查找表实现高效低比特大语言模型推理加速

TL;DR本研究解决了低比特大语言模型推理中混合精度矩阵乘法(mpGEMM)需求的问题,提出了一种基于查找表(LUT)的方法。通过优化的软件硬件协同设计—LUT张量核心,不仅改进了表的预计算和存储效率,还显著提升了计算密度和能效,为低比特LMM的执行提供了强有力的支持。