Oct, 2022
AutoMoE: 针对高效稀疏激活 Transformer 的神经结构搜索
AutoMoE: Neural Architecture Search for Efficient Sparsely Activated Transformers
Ganesh Jawahar, Subhabrata Mukherjee, Xiaodong Liu, Young Jin Kim, Muhammad Abdul-Mageed...
TL;DRAutoMoE 利用罕见专家模型搜索出高效迪凡助手模型,较手动设计的模型可减少 3 倍的 FLOPs,与最先进的 NAS 生成的难点模型相比,可减少 23% 的 FLOPs,同时在 NMT 基准数据集上保持 BLEU 评分的平价。