利用稀疏变换器生成长序列
我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式,其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度,我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下,我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍,对于长度为 8k 和 16k 的序列。
Jun, 2023
提出了一种名为 Combiner 的替代 transformers 中的 attention layers 的方法,其通过利用结构化分解的条件分布来近似自我关注机制,实现了每个关注头的完全关注能力,同时保持低计算和内存复杂性。在自回归和双向序列任务上的实验评估表明,该方法有效性高,可以产生多个图像和文本建模任务的最新技术结果。
Jul, 2021
本研究提出一种稀释注意力机制,以解决 Transformer 网络在输入序列长度较长时的计算成本过高的问题,并证明其能够普遍逼近任何序列到序列的函数,而且具有比稠密模型更低的复杂度,最后通过实验结果验证该机制的有效性在自然语言处理任务中。
Jun, 2020
提出了一种名为 MASFormer 的变种 Transformer 模型,它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系,又能在其余层使用稀疏注意力提高计算效率。实验结果表明,该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能,同时显著降低计算成本(多达 75%),并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。
Oct, 2023
通过应用稀疏和二元权重变换器在多变量时间序列问题上,我们表明轻量级模型能够获得与相同结构的稠密浮点变换器相当的准确性。我们的模型在分类、异常检测和单步预测三个时间序列学习任务上取得了良好的结果,并应用了两种修改以减少注意力机制的计算复杂度,从而大大减少变换器中非零操作的数量。我们在参数数量、存储大小和浮点运算量(FLOPs)等多个度量标准上测量了我们的方法的计算节约,并展示了高达 53 倍的存储大小减少和高达 10.5 倍的 FLOPs 减少。
Aug, 2023
本研究提出了一种用于构建下一代 Transformer 模型的方法,即利用稀疏层进行有效缩放和高效执行非批量解码。结果表明,这种模型在拥有相同参数数量的情况下,可以获得与标准 Transformer 相同的效果,并且在长文本摘要方面表现优异。
Nov, 2021
本研究提出了 Routing Transformer,它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块,将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$,并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。
Mar, 2020
本文提出聚类注意力机制以解决 transformers 模型在处理长序列时,注意力矩阵的求解复杂度很高的问题,同时在计算预定义聚类的质心时,能够处理自由形式的注意力机制。
Jul, 2020
本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制,同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明,LSG attention 机制在长文本的分类和摘要任务中效率优秀,也可以用于有效地扩展预训练模型的序列长度。
Oct, 2022
本文提出了一种新的自注意力机制 ——Linformer,该机制通过近似自注意力矩阵,将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n),从而显著提高了 Transformer 模型的内存和时间效率。
Jun, 2020