Oct, 2023

QMoE:万亿参数模型的实用次比特压缩

TL;DR此研究论文介绍了一种名为 QMoE 的新的压缩和执行框架,通过可扩展的算法和 GPU 解码内核,将 1.6 万亿参数的 SwitchTransformer-c2048 模型压缩至不到 160GB(即 20 倍压缩,每个参数 0.8 个比特),在单个 GPU 上只需不到一天的时间,以较少的准确性损失实现了对廉价服务器(如 4x NVIDIA A6000 或 8x NVIDIA 3090 GPU)上的万亿参数模型的执行,并相对于理想的未压缩推理只有不到 5% 的运行时开销。