BriefGPT.xyz
大模型
Ask
alpha
关键词
distributed attention framework
搜索结果 - 1
BurstAttention: 极长序列的高效分布式注意力框架
我们提出了一种名为 “BurstAttention” 的分布式注意力框架,通过在全局集群和本地设备级别上优化内存访问和通信操作,相比于竞争的基准线,在处理长序列时减少 40% 的通信开销,训练 32K 序列长度时实现 2 倍加速。
PDF
4 months ago
Prev
Next