May, 2024

激活器:GLU 激活作为视觉转换器的核心功能

TL;DR该研究探讨了利用门控线性单元激活的多层感知器架构替代传统 Transformer 架构中通常采用的注意力机制,以及进一步减少计算成本的方法,实验结果表明这些修改和减少都能在设计 Transformer 架构的核心组件中提供具有竞争力的性能。