聚类注意力实现快速 Transformer
我们提出了一种名为 “BurstAttention” 的分布式注意力框架,通过在全局集群和本地设备级别上优化内存访问和通信操作,相比于竞争的基准线,在处理长序列时减少 40% 的通信开销,训练 32K 序列长度时实现 2 倍加速。
Mar, 2024
本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法,基于对查询进行分块的计算,在多个数据集上的评估表明其准确性接近于 vanilla attention。
Jun, 2021
Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.
Oct, 2023
本研究提出了一种高效的基于矩阵结构的层次注意力方法,并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的,相比于其他次二次方提议在 Long Range Arena 基准测试上平均提高了 6 个百分点,在 One-Billion Word 数据集上也取得了新的 SOTA 测试困惑度。
Jul, 2021
提出基于聚类优化规则的重心注意力模型,将输入映射为小数目的中心点,摘取关键信息进行预测,有效降低复杂度并优于标准转换器,适用于文本摘要、3D 视觉和图像处理等多个领域。
Feb, 2021
本文介绍了一种称为 Sparse Transformers 的神经网络架构,该架构通过稀疏的注意力矩阵因式分解和其他一些技术,可以更有效地处理长序列等任务,并在 Enwik8,CIFAR-10,和 ImageNet-64 等基准数据集上创造出新的最优表现。
Apr, 2019
基于自注意力机制的转换器架构,提出了一种使用代理符号的聚类自注意力机制(CAST),用于优化注意力计算并实现高效的转换器。CAST 通过减少复杂度从 O(N^2)到 O(αN),N 为序列长度,α 是按照聚类的数量和每个聚类的样本数而定的常数,实现了更高的时间和内存效率。
Feb, 2024
我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式,其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度,我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下,我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍,对于长度为 8k 和 16k 的序列。
Jun, 2023
通过使用线性核特征图将自注意力表示为线性点积,并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N),我们的线性变压器实现比循环神经网络快 4000 倍,但在自回归预测上达到了与基本变压器类似的性能。
Jun, 2020