Feb, 2024

注意力的 I/O 复杂性:闪快注意力有多优化?

TL;DRFlashAttention 算法解决了自我注意力在 Transformer 架构中的 I/O 复杂性问题,并且建立了通信复杂性与 I/O 复杂性之间的联系。