Jul, 2021

拓宽广度而非纵深

TL;DR本文提出了一种宽架构、混合专家 (MoE) 替代前馈神经网络 (FFN) 的参数高效框架,通过参数共享以压缩深度,并使用独立的 layernorms 来转换各种语义表示,实验结果在多个计算机视觉和自然语言处理基准测试中表现优异,最佳模型能以 0.72 倍的可训练参数超越 Vision Transformer 1.5%、超越 ALBERT 1.8%平均表现和使用分解嵌入参数化的 BERT 0.8%。