Nyströmformer:一种基于 Nyström 方法的自注意力近似算法
本研究开发出一种新型的线性变压器,通过检验自我关注中关键查询产品的特性,发现其在语音识别和语音摘要方面优于现有的方法。
Oct, 2022
本文提出了一种新的自注意力机制 ——Linformer,该机制通过近似自注意力矩阵,将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n),从而显著提高了 Transformer 模型的内存和时间效率。
Jun, 2020
Longformer 是一种基于 Transformers 的模型,采用能够线性缩放序列长度的自注意力机制,使得处理数千个记号以上的文档变得容易;与先前的一些工作不同的是,Longformer 同时进行了预训练和下游任务的微调,并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外,Longformer 还引入了 Longformer-Encoder-Decoder(LED)以支持长文档的生成序列对序列任务。
Apr, 2020
本文提出了 Skyformer 模型,借鉴了核机器的计算方法,通过将 softmax 结构替换为高斯核以稳定模型训练,并将 Nyström 方法调整为一个非半正定矩阵以加速计算,实验结果表明该模型不仅需要的计算资源更少,而且在大规模 Arena 基准测试中表现得不逊于完全自注意力机制。
Oct, 2021
比较研究了多种 Transformer 模型的性能,发现长序列的改进版本在内容选择和查询引导解码方面有优势,但在处理远距离的信息和近似误差上有欠缺的地方。
Feb, 2022
提出了一种名为 MASFormer 的变种 Transformer 模型,它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系,又能在其余层使用稀疏注意力提高计算效率。实验结果表明,该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能,同时显著降低计算成本(多达 75%),并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。
Oct, 2023
使用 Holographic Reduced Representations 方法重新构建自我注意力机制,将其实现为 Hrrformer,并在恶意软件检测中获得近乎最先进的准确性和极大的加速。
May, 2023
通过分析自注意力机制的注意力矩阵分布和其专注能力,并引入一种新的自注意力机制(线性对数正态注意力),我们试图研究其与原始自注意力的分布和专注行为的模拟度量,实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案,为提高 Transformer 模型的可扩展性提供了有前景的途径。
Nov, 2023
通过引入 Surrogate Attention Blocks 和 Surrogate FFN Blocks,提出了一种新颖的针对长序列时间序列预测问题的 Transformer 模型的架构设计,以提高模型的效率而不牺牲准确性。在涵盖了九个基于 Transformer 的模型的五个时间序列任务的广泛实验中,观察到平均性能提高了 9.45%,同时模型的大小降低了 46%。
May, 2024