QMoE：万亿参数模型的实用次比特压缩

Oct, 2023

QMoE：万亿参数模型的实用次比特压缩

QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models

Elias Frantar, Dan Alistarh

TL;DR此研究论文介绍了一种名为 QMoE 的新的压缩和执行框架，通过可扩展的算法和 GPU 解码内核，将 1.6 万亿参数的 SwitchTransformer-c2048 模型压缩至不到 160GB（即 20 倍压缩，每个参数 0.8 个比特），在单个 GPU 上只需不到一天的时间，以较少的准确性损失实现了对廉价服务器（如 4x NVIDIA A6000 或 8x NVIDIA 3090 GPU）上的万亿参数模型的执行，并相对于理想的未压缩推理只有不到 5% 的运行时开销。

Abstract

mixture-of-experts (MoE) architectures offer a general solution to the high inference costs of large language models (LLMs) via sparse routing, bringing faster and more accurate models, at the cost of massive par

mixture-of-experts language models compression execution framework qmoe

发现论文，激发创造

分量化专家混合 (MoQE): 低位量化和鲁棒性的互补效果

提出了一种名为 Mixture of Quantized Experts (MoQE) 的简单权重量化方法，可以降低 Mixture of Experts (MoE) 模型的内存消耗和延迟问题，同时保持可靠的模型性能，并可在大多数情况下显著减小模型大小。

Oct, 2023

Switch Transformers: 使用简单高效的稀疏性扩展至万亿级参数模型

通过 Switch Transformer 和降低精度格式，本文展示了如何简化 MoE 路由算法，降低信息交流和计算成本，以及解决训练不稳定问题，并在多语言领域提高了预训练速度并推动了现有语言模型的规模扩大，以 trillion 参数为例，实现了超过 4 倍的速度提升。

Jan, 2021

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

谁说大象不能奔跑：将大规模 MoE 模型引入云计算生产环境

通过量化权重和优化方法加速计算和减少模型大小，实现了高效的 Inference 模型，使得大规模混合专家 (Mixture of Experts) 变压器模型的部署成为可能。

Nov, 2022

混合专家语言模型的快速推断与卸载

通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略，使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。

Dec, 2023

预训练语言模型的参数高效专家混合架构

本文提出了一种参数高效的混合专家架构，通过在专家层中共享参数矩阵中心张量的信息，并通过辅助张量增加各个专家的特异性，从而通过矩阵乘积算子来实现受量子多体物理学影响的张量分解，以解决混合专家架构中存在的参数膨胀问题，实验结果表明新方法具有更好的性能和效率。

Mar, 2022

一种新颖的张量专家混合并行方法用于规模化专家混合训练

本文提出一种新的混合专家神经网络架构（MoE），并采用三维混合并行算法，结合张量、专家和数据并行，进行内存和通信优化，极大地提高了 MoE 模型的训练效率和精度。

Mar, 2023

ST-MoE: 设计稳定且可转移的稀疏专家模型

本文关注自然语言处理中的训练不稳定和模型精确性问题，研究提出一种设计指南，通过将一个稀疏模型扩展到 269B 参数实现了全面的迁移学习，成为第一个在各类任务中达到最先进水平的稀疏模型 (ST-MoE-32B)。

Feb, 2022

M6-T：探索稀疏专家模型及其进展

本文研究了稀疏专家模型中的关键因素，提出了专家原型法以改善模型质量，同时将模型规模扩大到 1 万亿参数，实现了与 TPU 相同的加速。

May, 2021

密集训练，稀疏推断：重思混合专家语言模型的训练

通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE)，在保持性能的同时实现了强大的计算和参数效率，比标准稀疏 MoE 更具参数效率，在总参数大小和性能方面与密集模型持平，而且计算成本更低。

Apr, 2024