SEA:具有估计注意力掩码的稀疏线性注意力
通过引入 SPARSEK Attention,将自注意机制的计算和内存障碍降到最低,提供线性时间复杂度和恒定的内存占用,实现了更高效的长序列处理和管理。
Jun, 2024
本文提出聚类注意力机制以解决 transformers 模型在处理长序列时,注意力矩阵的求解复杂度很高的问题,同时在计算预定义聚类的质心时,能够处理自由形式的注意力机制。
Jul, 2020
本文介绍了一种称为 Sparse Transformers 的神经网络架构,该架构通过稀疏的注意力矩阵因式分解和其他一些技术,可以更有效地处理长序列等任务,并在 Enwik8,CIFAR-10,和 ImageNet-64 等基准数据集上创造出新的最优表现。
Apr, 2019
本研究提出了 Routing Transformer,它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块,将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$,并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。
Mar, 2020
我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式,其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度,我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下,我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍,对于长度为 8k 和 16k 的序列。
Jun, 2023
提出了一种名为显式稀疏 Transformer 的新模型,其通过选择最相关的片段来改进全局上下文的注意力集中度,展示了在自然语言处理和计算机视觉任务方面的优越表现,并实现了与稀疏注意力方法可比或更好的结果,但显著减少了训练和测试时间。
Dec, 2019
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024
本文提出 SEAT,即稳定且可解释的注意力机制。通过与其他基线方法的比较,研究者发现 SEAT 可以更好地保持注意力的可解释性和稳定性,同时保持较高的准确性。
Nov, 2022
本研究介绍了一种名为 ReLA 的新型的、可实现稀疏注意的模型,该模型采用 ReLU 激活函数来代替 softmax 函数,通过额外的门控函数或专门的初始化实现了训练稳定性。实验结果表明,ReLA 模型在机器翻译任务中表现良好,且实现效率高,同时能够实现高稀疏率和头部多样性。
Apr, 2021