Apr, 2024

线性注意力序列并行

TL;DR本文介绍了一种基于线性注意力的语言模型的高效序列并行化方法 ——LASP,通过设计高效的点对点通信机制以及融合核函数和中间状态缓存来使其在 GPU 集群上实现硬件友好且能与批量并行方法兼容,从而在大规模集群上具有更高的并行化效率和可用性。