带有键值记忆的线性变换器
本文提出了一种新的自注意力机制 ——Linformer,该机制通过近似自注意力矩阵,将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n),从而显著提高了 Transformer 模型的内存和时间效率。
Jun, 2020
本文介绍了一种新的神经网络架构 Sumformer,可以近似等变序列到序列的函数。作者使用 Sumformer 在 Linformer 和 Performer 上实现了第一个通用的逼近结果,并提出了 Transformer 的新证明,仅需要一个注意力层即可实现通用逼近。
Jul, 2023
我们提出了一种新颖的两阶段训练机制和一种新颖的正则化技术,以提高基于内存的 Transformer 的训练效率,该模型通常用于解决长程背景问题。我们在字符级语言模型任务上展示了我们的结果模型 Skip Cross-head TransformerXL,在相似参数下优于基线模型,并在词级语言建模任务上优于基线模型,参数减少近 20%。我们提出的方法不需要额外的内存。我们还展示了我们在 BERT 上的正则化机制的有效性,该机制在多个 GLUE 任务中表现出相似性能,并降低了标准差约 30%。
Nov, 2023
在深度学习方面,使用 Transformer 架构的计算成本很高,使用近期提出的各种线性自我关注机制来解决,观察到 Performers 具有极大的计算灵活性,并且可以在训练期间仅占用 O(1)的内存,为去中心化和民主化的深度学习做出贡献。
Dec, 2020
本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法,新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果,同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍,在掩蔽语言模型上提升了 4.8 倍。
Feb, 2022
本文介绍了两种技术以提高 Transformer 的效率:使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层,减少存储激活的次数。改进后的模型 Reformer 在处理长序列时比 Transformer 更加高效。
Jan, 2020
本文所研究的 Transformer-Kernel 模型已经在 TREC Deep Learning benchmark 中表现出强大的重排名表现,它是 BERT 排名模型的有效但略微不够有效的替代品。本文将 TK 体系结构扩展到全检索设置并考虑查询术语独立假设,提出将 Conformer 层结合在一起,同时还演示了将显式术语匹配信号纳入模型可能在全检索设置中特别有用的初步结果。
Jul, 2020
为了进一步推动语言模型的次二次架构,我们提出了一种简单而优雅的变化,增强了其上下文学习能力,并通过多查询联想回忆任务和整体语言建模过程在 Pile 数据集上进行了评估。
Feb, 2024