May, 2024

MoNDE: 大规模稀疏模型的近数据专家混合

TL;DR提出了一种近数据计算解决方案 MoNDE,通过仅传输热门专家到 GPU,将专家参数的传输转换为小型激活的传输,从而实现更高效的 MoE 推断,对于编码器和解码器操作都能实现显著加速。