Nov, 2023

条纹注意力:用于因果性变形器的更快环形注意力

TL;DR通过在转换模型中引入 Ring Attention 和 Striped Attention 算法,能够解决设备内存瓶颈和工作负载不均衡问题,实现了在 256k 和 786k 序列长度下分别提高 1.45 倍和 1.65 倍的端到端吞吐量。