Dec, 2023
SwitchHead:混合专家注意力加速变压器
SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention
Róbert Csordás, Piotr Piękos, Kazuki Irie
TL;DRSwitchHead 是一种新颖的方法,通过使用混合专家(Mixture-of-Experts)层和较少的自注意力矩阵,减少计算和内存需求,实现与基线 Transformers 相同参数预算的语言建模性能,进而获得了墙钟速度的提升。