May, 2022

FlashAttention: 带 IO 感知的快速、节省内存的精确注意力机制

TL;DR提出了 FlashAttention,一种 IO 感知的确切关注算法。FlashAttention 使用平铺减少 GPU 高带宽内存(HBM)和 GPU 片上 SRAM 之间的内存读取 / 写入次数,并可扩展为块状稀疏关注。FlashAttention 使 Transformers 速度提高,使其具有更长的上下文并获得更高质量的模型,以及实现了 Path-X 挑战的首个 Transformers。