Dec, 2023

SwitchHead:混合专家注意力加速变压器

TL;DRSwitchHead 是一种新颖的方法,通过使用混合专家(Mixture-of-Experts)层和较少的自注意力矩阵,减少计算和内存需求,实现与基线 Transformers 相同参数预算的语言建模性能,进而获得了墙钟速度的提升。