Dec, 2023

硬件高效训练的门控线性注意力变换器

TL;DR通过引入数据依赖的门控机制,我们开发了一种硬件高效的并行形式,使得门控线性注意力(GLA)Transformers 在适度规模的语言建模中表现竞争力,并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。