Dec, 2023

混合专家语言模型的快速推断与卸载

TL;DR通过参数卸载算法和利用 MoE LLMs 的固有属性提出一种新策略,使消费者硬件和免费 Google Colab 实例上能够运行 Mixtral-8x7B 型号的 MoE 语言模型。