Jul, 2023

FlashAttention-2:更快的注意力计算,更好的并行和工作分割

TL;DR使用 FlashAttention 和 FlashAttention-2 算法来提高模型的效率