Jun, 2024

ME-Switch: 大型语言模型的内存高效专家切换框架

TL;DRME-Switch 是一种用于 LLM 提供的高效内存专家切换框架,通过混合精度量化,选择性地对非显著输入通道进行极低位量化,同时保持显著通道完整,从而显著减少存储需求并保持性能;此外,我们还开发了一种路由方法,通过将模型选择问题转化为领域分类问题,高效地将用户查询转发到最合适的专家。广泛的实验证明 ME-Switch 在内存效率和路由性能方面具有良好的表现。