Aug, 2022

高效稀疏激活变压器

TL;DR本文研究了在基于 Transformer 的神经网络中引入混合专家 (MoE) 层以优化推理延迟,并提出了一个名为 PLANER 的系统,能够在保持基准准确性的同时实现推理延迟的优化,实验结果表明,这种方法能够在两个真实的语言建模任务中实现超过 2 倍的推理延迟降低。