LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024
我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式,其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度,我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下,我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍,对于长度为 8k 和 16k 的序列。
Jun, 2023
使用 FlashAttention 和 FlashAttention-2 算法来提高模型的效率
Jul, 2023
通过使用新的硬件特性,我们开发了三种主要技术来加速注意力机制在 Hopper GPU 上的计算,从而实现 1.5-2.0 倍的加速,并展示了 FP8 达到接近 1.2 PFLOPs/s 的性能,同时比基线 FP8 注意力机制的数值误差低 2.6 倍。
Jul, 2024
本研究关注于应用预测几何模型于机器学习中时所面临的稳定性和方差问题,并通过分析诸如单个数据点、逼近方法和参数设置等特征对基于 word2vec 的推荐系统几何模型进行调整和优化,以实现对大规模数据点的信息价值检测。
Jul, 2018
在本文中,我们研究了训练稳定性和不稳定性在小规模下的再现和研究方法,重点关注了注意力层中逻辑增长和输出逻辑概率分歧的两个训练不稳定性来源,并研究了学习率、优化器和模型干预对最终损失的敏感性的影响,以及通过研究模型激活和梯度范数的缩放行为来预测出现不稳定性的两种情况。
Sep, 2023
通过利用随机计算(SC)执行基于脉冲神经网络(SNN)的 Transformer 模型的点积注意力机制,实现高准确率和能源效率。
Feb, 2024
研究人员提出了两种 Attention 机制的变化:Clipped softmax 和 Gated attention,它们可以帮助模型学习更小的异常值。利用这些变化,模型可以进行完整的 INT8 激活量化而无需额外的努力。
本文提出针对大型语言视觉模型加速和稳定性训练的新方法,包括 SwitchBack 技术和 AdamW-Adafactor 混合的 StableAdamW 技术,提高了模型的训练速度和稳定性。
Apr, 2023
提出了 FlashAttention,一种 IO 感知的确切关注算法。FlashAttention 使用平铺减少 GPU 高带宽内存(HBM)和 GPU 片上 SRAM 之间的内存读取 / 写入次数,并可扩展为块状稀疏关注。FlashAttention 使 Transformers 速度提高,使其具有更长的上下文并获得更高质量的模型,以及实现了 Path-X 挑战的首个 Transformers。
May, 2022