混合专家后训练量化的研究：一个基准评估 | BriefGPT - AI 论文速递

Jun, 2024

混合专家后训练量化的研究：一个基准评估

Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark

Pingzhi Li, Xiaolong Jin, Yu Cheng, Tianlong Chen

TL;DR大型语言模型的研究中，Mixture-of-Experts（MoE）方法通过稀疏激活以更少的计算FLOPs实现了对LLMs的有效扩展，但是由于显著的内存开销，在直接应用于MoE模型时，后训练量化的常规方法效果较差。本文所做工作在多个维度对MoE结构感知的量化启发式方法进行了探索，包括从粗到细粒度、从MoE块到单个线性权重。研究结果揭示了关键原则：不同的MoE结构（如块、专家、线性层）需要不同数量的权重位数以实现有效和高效的量化。通过对两个典型MoE模型和六个任务进行广泛的基准测试来支持所得结论。同时，我们还引入了一些新的增强方法，以更准确地识别MoE量化中需要更高位数分配的关键权重，包括线性权重异常得分器和MoE块得分器。此外，后续实验还验证了我们在权重和激活量化方面的发现。

Abstract

large language models~(LLMs) have become foundational in the realm of natural language processing, demonstrating performance improvements as model sizes increase. The mixture-of-experts~(MoE) approach offers a pr