闪光关注是否稳定？

May, 2024

Is Flash Attention Stable?

Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer...

TL;DR利用数值偏差原则性地分析了大规模机器学习模型训练中的稳定性问题，以 Flash Attention 优化为研究对象，发现其数值偏差比低精度训练要小 2-5 倍。

Abstract

Training large-scale machine learning models poses distinct system challenges, given both the size and complexity of today's workloads. Recently, many organizations training state-of-the-art generative ai models

large-scale machine learning models loss spikes numeric deviation generative ai models flash attention optimization

发现论文，激发创造

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023

FlashAttention-2：更快的注意力计算，更好的并行和工作分割

使用 FlashAttention 和 FlashAttention-2 算法来提高模型的效率

Jul, 2023

FlashAttention-3: 快速和准确的异步低精度注意力

通过使用新的硬件特性，我们开发了三种主要技术来加速注意力机制在 Hopper GPU 上的计算，从而实现 1.5-2.0 倍的加速，并展示了 FP8 达到接近 1.2 PFLOPs/s 的性能，同时比基线 FP8 注意力机制的数值误差低 2.6 倍。

Jul, 2024

分析过敏的 AI：企业级机器学习中的不稳定性

本研究关注于应用预测几何模型于机器学习中时所面临的稳定性和方差问题，并通过分析诸如单个数据点、逼近方法和参数设置等特征对基于 word2vec 的推荐系统几何模型进行调整和优化，以实现对大规模数据点的信息价值检测。

Jul, 2018

大规模 Transformer 训练不稳定性的小规模代理

在本文中，我们研究了训练稳定性和不稳定性在小规模下的再现和研究方法，重点关注了注意力层中逻辑增长和输出逻辑概率分歧的两个训练不稳定性来源，并研究了学习率、优化器和模型干预对最终损失的敏感性的影响，以及通过研究模型激活和梯度范数的缩放行为来预测出现不稳定性的两种情况。

Sep, 2023

随机尖峰注意力：在尖峰网络中利用随机计算加速注意力

通过利用随机计算（SC）执行基于脉冲神经网络（SNN）的 Transformer 模型的点积注意力机制，实现高准确率和能源效率。

Feb, 2024

可量化的 Transformer 模型：通过助于自注意力机制头部不做多余操作消除异常值

研究人员提出了两种 Attention 机制的变化：Clipped softmax 和 Gated attention，它们可以帮助模型学习更小的异常值。利用这些变化，模型可以进行完整的 INT8 激活量化而无需额外的努力。

Jun, 2023

大规模视觉语言模型的稳定低精度训练

本文提出针对大型语言视觉模型加速和稳定性训练的新方法，包括 SwitchBack 技术和 AdamW-Adafactor 混合的 StableAdamW 技术，提高了模型的训练速度和稳定性。

Apr, 2023

FlashAttention: 带 IO 感知的快速、节省内存的精确注意力机制

提出了 FlashAttention，一种 IO 感知的确切关注算法。FlashAttention 使用平铺减少 GPU 高带宽内存（HBM）和 GPU 片上 SRAM 之间的内存读取 / 写入次数，并可扩展为块状稀疏关注。FlashAttention 使 Transformers 速度提高，使其具有更长的上下文并获得更高质量的模型，以及实现了 Path-X 挑战的首个 Transformers。

May, 2022