Jul, 2024

FlashAttention-3:快速和准确的异步低精度注意力

TL;DR通过使用新的硬件特性,我们开发了三种主要技术来加速注意力机制在Hopper GPU上的计算,从而实现1.5-2.0倍的加速,并展示了FP8达到接近1.2 PFLOPs/s的性能,同时比基线FP8注意力机制的数值误差低2.6倍。