Jun, 2022

nuQmm: 大规模生成式语言模型高效推理的量化矩阵乘法

TL;DR该论文提出了一个有效的推理框架用于大规模生成式语言模型,采用自我监督学习和Transformer架构的最新进展实现了低困惑度,通过非均匀量化和nuQmm的加速矩阵乘法,实现了模型大小的减小,并减少了大型LM的推理延迟