Feb, 2024
将废料转化为价值:修正 MoE 的前 k 路由器
Turn Waste into Worth: Rectifying Top-$k$ Router of MoE
Zhiyuan Zeng, Qipeng Guo, Zhaoye Fei, Zhangyue Yin, Yunhua Zhou...
TL;DR使用 Sparse Mixture of Experts 模型以解决 top-k routing 机制的冗余计算和内存消耗问题,提出了 Rectify-Router,该方法包括 Intra-GPU Rectification 和 Fill-in Rectification,分别有效处理被丢弃的标记和填充问题,实验证明两者的组合可以提高 4.7% 的准确性。