Oct, 2022

AutoMoE: 针对高效稀疏激活 Transformer 的神经结构搜索

TL;DRAutoMoE 利用罕见专家模型搜索出高效迪凡助手模型,较手动设计的模型可减少 3 倍的 FLOPs,与最先进的 NAS 生成的难点模型相比,可减少 23% 的 FLOPs,同时在 NMT 基准数据集上保持 BLEU 评分的平价。