BriefGPT.xyz
Ask
alpha
关键词
ring attention
搜索结果 - 2
条纹注意力:用于因果性变形器的更快环形注意力
通过在转换模型中引入 Ring Attention 和 Striped Attention 算法,能够解决设备内存瓶颈和工作负载不均衡问题,实现了在 256k 和 786k 序列长度下分别提高 1.45 倍和 1.65 倍的端到端吞吐量。
PDF
8 months ago
近无限背景下的分块 Transformer 环形注意力
传统的 Transformer 架构由于内存需求限制了其处理长序列的能力,而我们提出的 Ring Attention 方法通过分块计算自注意力和重叠通信的方式,提高了内存利用效率,允许处理更长的输入序列,从而消除了设备内存的限制,同时在语言
→
PDF
9 months ago
Prev
Next