BriefGPT.xyz
Ask
alpha
关键词
approximate attention
搜索结果 - 2
FlashAttention: 带 IO 感知的快速、节省内存的精确注意力机制
提出了 FlashAttention,一种 IO 感知的确切关注算法。FlashAttention 使用平铺减少 GPU 高带宽内存(HBM)和 GPU 片上 SRAM 之间的内存读取 / 写入次数,并可扩展为块状稀疏关注。FlashAtt
→
PDF
2 years ago
SMYRF:使用不对称聚类的高效注意力机制
我们提出了一种新型的平衡聚类算法 SMYRF,通过使用局部敏感哈希算法和一系列新异构变换,实现了由 O(N ^ 2)到 O(N log N)的注意力复杂度的有效减少,并在不需要重新训练的情况下拥有良好的性能表现。
PDF
4 years ago
Prev
Next