基于 Top-k 注意力的内存高效 Transformer
本文提出聚类注意力机制以解决 transformers 模型在处理长序列时,注意力矩阵的求解复杂度很高的问题,同时在计算预定义聚类的质心时,能够处理自由形式的注意力机制。
Jul, 2020
本文提出了一种 K-NN 自注意力机制,具有更好的速度和准确率,且适用于各种不同种类的 transformer 结构,从而可以提高图像识别的性能。
May, 2021
通过引入 SPARSEK Attention,将自注意机制的计算和内存障碍降到最低,提供线性时间复杂度和恒定的内存占用,实现了更高效的长序列处理和管理。
Jun, 2024
本文提出了一种名为 query and attend(QnA)的新型 shift-invariant local attention 层,将其并入分层视觉 transformer 模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024
本文介绍 Performers,这是 Transformer 结构,可以通过使用一种称为 FAVOR + 的新方法来估计常规(softmax)全秩注意力 Transformers,其具有可证明的准确性,但仅使用线性(而不是二次)空间和时间复杂性,而不依赖于任何先验知识,如稀疏度或低秩性。Performers 是线性结构,可以与常规 Transformers 完全兼容,并具有较强的理论保证。在各种任务上对 Performers 进行了测试,并展示了其在各自领域内对其他有效稀疏和密集关注方法的竞争力,展示了 Performers 所利用的新型关注学习范式的效果。
Sep, 2020
在传统的 transformer 模型中,标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法,将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用,通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比,标准的下一个记号预测的时间复杂度与序列长度成线性关系,而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当,但允许在标准 attention 不可行的背景窗口范围内进行扩展。
Feb, 2024
Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.
Oct, 2023
本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法,新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果,同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍,在掩蔽语言模型上提升了 4.8 倍。
Feb, 2022