Jun, 2022
nuQmm: 大规模生成式语言模型高效推理的量化矩阵乘法
nuQmm: Quantized MatMul for Efficient Inference of Large-Scale Generative Language Models
Gunho Park, Baeseong Park, Sungjae Lee, Minsub Kim, Byeongwook Kim...
TL;DR该论文提出了一个有效的推理框架用于大规模生成式语言模型,采用自我监督学习和 Transformer 架构的最新进展实现了低困惑度,通过非均匀量化和 nuQmm 的加速矩阵乘法,实现了模型大小的减小,并减少了大型 LM 的推理延迟