Feb, 2024

将废料转化为价值:修正 MoE 的前 k 路由器

TL;DR使用 Sparse Mixture of Experts 模型以解决 top-k routing 机制的冗余计算和内存消耗问题,提出了 Rectify-Router,该方法包括 Intra-GPU Rectification 和 Fill-in Rectification,分别有效处理被丢弃的标记和填充问题,实验证明两者的组合可以提高 4.7% 的准确性。