FlashAttention-3:快速和准确的异步低精度注意力

Jul, 2024

FlashAttention-3:快速和准确的异步低精度注意力

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision

Jay Shah, Ganesh Bikshandi, Ying Zhang, Vijay Thakkar, Pradeep Ramani...

TL;DR通过使用新的硬件特性，我们开发了三种主要技术来加速注意力机制在Hopper GPU上的计算，从而实现1.5-2.0倍的加速，并展示了FP8达到接近1.2 PFLOPs/s的性能，同时比基线FP8注意力机制的数值误差低2.6倍。

Abstract

attention, as a core layer of the ubiquitous transformer architecture, is the bottleneck for large language models and long-context applications.

发现论文，激发创造

FlashAttention: 带IO感知的快速、节省内存的精确注意力机制

提出了FlashAttention，一种IO感知的确切关注算法。FlashAttention使用平铺减少GPU高带宽内存（HBM）和GPU片上SRAM之间的内存读取/写入次数，并可扩展为块状稀疏关注。FlashAttention使Transformers速度提高，使其具有更长的上下文并获得更高质量的模型，以及实现了Path-X挑战的首个Transformers。

May, 2022

高效ViT: 带级联分组注意力的内存高效视觉Transformer

本研究提出一种高速的视觉Transformer模型EfficientViT，通过优化Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法，提高其内存利用率，加快模型速度，并在速度和准确性之间取得良好的平衡。

May, 2023

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了FlashAttention以容纳一大类稀疏性注意力模式，其中包括关键/查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进FlashAttention的性能。不牺牲困惑度的情况下，我们将transformer语言模型的训练速度分别提高了2.0倍和3.3倍，对于长度为8k和16k的序列。

Jun, 2023

FlashAttention-2：更快的注意力计算，更好的并行和工作分割

使用FlashAttention和FlashAttention-2算法来提高模型的效率

Jul, 2023

FlashDecoding++: 在GPU上更快的大型语言模型推理

FlashDecoding++是支持主流LLM和硬件后端的快速LLM推理引擎，通过引入异步softmax、平坦GEMM优化和启发式数据流等技术，相较于Hugging Face实现，在NVIDIA和AMD GPU上实现了最高4.86倍和2.18倍的加速，在主流LLMs上平均实现了1.37倍的速度提升。

Nov, 2023

在GPU上实现快速2位硬件离线量化低内存映射：内存对齐、稀疏离群值和异步解量化

通过以较小的计算代价解决对大型语言模型（LLMs）进行量化和去量化操作时所面临的问题，我们提出了一种新的技术，并在不同模型和尺寸上进行了广泛实验，成功实现了每个权重的2.85位表示，模型的端到端加速比为1.74倍，同时降低了运行成本和硬件需求。

Nov, 2023

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers在适度规模的语言建模中表现竞争力，并在训练速度上与基于CUDA优化的FlashAttention-2相媲美。

Dec, 2023

CUDA内核融合研究案例：在NVIDIA Hopper架构上使用CUTLASS库实现FlashAttention-2

我们提供了FlashAttention-2前向传递的优化实现，使用了自定义融合的CUDA内核，以适应NVIDIA Hopper架构，并使用开源的CUTLASS库编写。在此过程中，我们解释了将在线softmax与连续的GEMM内核融合在一起的挑战和技术，利用Hopper特定的Tensor Memory Accelerator（TMA）和Warpgroup Matrix-Multiply-Accumulate（WGMMA）指令，定义和转换CUTLASS布局和张量，重叠复制和GEMM操作，并选择Q、K和V注意力矩阵的最优瓦片大小，同时平衡寄存器压力和共享内存利用率。在单个H100 PCIe GPU上进行的对比性测试中，针对某些常见的超参数选择，我们观察到与针对上一代NVIDIA Ampere架构进行优化的FlashAttention-2版本相比，FLOPs/s高出20-50%。

Dec, 2023

BurstAttention: 极长序列的高效分布式注意力框架

我们提出了一种名为“BurstAttention”的分布式注意力框架，通过在全局集群和本地设备级别上优化内存访问和通信操作，相比于竞争的基准线，在处理长序列时减少40%的通信开销，训练32K序列长度时实现2倍加速。

Mar, 2024

精简注意力: 面向Transformer解码阶段的硬件感知可扩展注意力机制

LeanAttention是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供2.6倍的平均注意力执行加速和最多8.33倍的速度提升。

May, 2024