提出了一种名为 RFA 的注意力机制,它能够有效地处理长序列,同时在语言模型和机器翻译任务方面表现出与常规 transformer 模型相似或更好的性能,并且在机器翻译实验中,RFA 的解码速度是普通 transformer 的两倍。
Mar, 2021
通过控制变量的方法,我们将随机特征关注(RFA)分解成多个控制变量估计器的和,从而揭示了 RFA 和标准 softmax attention 之间的逼近差距。我们开发了一种更灵活的控制变量形式,得到了一种新颖的注意机制,该机制在保持线性复杂度的同时,显著降低了逼近差距,对于视觉和语言任务都比最新的高效注意机制表现更好。
Feb, 2023
本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制,以实现更快的计算和更高的准确率。
Nov, 2022
通过分析自注意力机制的注意力矩阵分布和其专注能力,并引入一种新的自注意力机制(线性对数正态注意力),我们试图研究其与原始自注意力的分布和专注行为的模拟度量,实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案,为提高 Transformer 模型的可扩展性提供了有前景的途径。
Nov, 2023
本文介绍了一种基于二项分布采样的局部敏感哈希(LSH)注意力机制,可以将自注意力的复杂度从二次降到线性。我们在 GLUE 和 LRA 基准测试中测试该算法并发现性能优于标准的预训练变压器模型和其他自注意力方法。
Nov, 2021
本研究介绍了一种名为 ReLA 的新型的、可实现稀疏注意的模型,该模型采用 ReLU 激活函数来代替 softmax 函数,通过额外的门控函数或专门的初始化实现了训练稳定性。实验结果表明,ReLA 模型在机器翻译任务中表现良好,且实现效率高,同时能够实现高稀疏率和头部多样性。
Apr, 2021
该研究提出了一种基于变换器的关系感知内核自注意力机制(RKSA),它采用了变换器的自注意力机制,并加入了概率模型和潜空间,从而将变换器的自注意力与连续推荐相结合,实现了推荐上下文的建模与个性化推荐。
Nov, 2019
本研究介绍了一种名为 SRA 的注意力机制,通过使用权重向量来学习可解释的表示,并在基准模型的端到端组合中有效应用于合成和现实世界的不平衡数据。
May, 2023
提出了一种新的注意力机制 —— 接收场注意,该机制不仅专注于感受野的空间特征,而且为大尺寸卷积核提供了有效的注意力权重,实现了用接收场空间特征替换空间特征的新方法,提高了网络的性能。
Apr, 2023
通过使用线性核特征图将自注意力表示为线性点积,并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N),我们的线性变压器实现比循环神经网络快 4000 倍,但在自回归预测上达到了与基本变压器类似的性能。
Jun, 2020