带有键值记忆的线性变换器

EMNLPMar, 2022

Linearizing Transformer with Key-Value Memory

Yizhe Zhang, Deng Cai

TL;DR提出了 MemSizer 方法来实现低维度表示和类似于基于核的 Transformer 的增量计算，从而在机器翻译、文本摘要和语言建模等三个应用任务中提高了效率和准确性。

Abstract

efficient transformer variants with linear time complexity have been developed to mitigate the quadratic computational overhead of the vanilla transformer. Among them are low-rank projection methods such as linformer

efficient transformer linformer kernel-based transformers sequence generation tasks memsizer

发现论文，激发创造

Linformer: 线性复杂度的自注意力

本文提出了一种新的自注意力机制 ——Linformer，该机制通过近似自注意力矩阵，将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n)，从而显著提高了 Transformer 模型的内存和时间效率。

Jun, 2020

Sumformer: 高效 Transformer 的通用逼近

本文介绍了一种新的神经网络架构 Sumformer，可以近似等变序列到序列的函数。作者使用 Sumformer 在 Linformer 和 Performer 上实现了第一个通用的逼近结果，并提出了 Transformer 的新证明，仅需要一个注意力层即可实现通用逼近。

Jul, 2023

用于基于记忆的 Transformer 的内存高效随机方法

我们提出了一种新颖的两阶段训练机制和一种新颖的正则化技术，以提高基于内存的 Transformer 的训练效率，该模型通常用于解决长程背景问题。我们在字符级语言模型任务上展示了我们的结果模型 Skip Cross-head TransformerXL，在相似参数下优于基线模型，并在词级语言建模任务上优于基线模型，参数减少近 20%。我们提出的方法不需要额外的内存。我们还展示了我们在 BERT 上的正则化机制的有效性，该机制在多个 GLUE 任务中表现出相似性能，并降低了标准差约 30%。

Nov, 2023

亚线性内存：如何使 Performers SLiM

在深度学习方面，使用 Transformer 架构的计算成本很高，使用近期提出的各种线性自我关注机制来解决，观察到 Performers 具有极大的计算灵活性，并且可以在训练期间仅占用 O（1）的内存，为去中心化和民主化的深度学习做出贡献。

Dec, 2020

大规模语言模型的线性化

通过线性变压器架构，降低预训练成本，提出了一种代价效益较高的线性变压器预训练方法 SUPRA，并在标准基准测试中取得了竞争性的性能。

May, 2024

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

Reformer：高效 Transformer

本文介绍了两种技术以提高 Transformer 的效率：使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层，减少存储激活的次数。改进后的模型 Reformer 在处理长序列时比 Transformer 更加高效。

Jan, 2020

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

Conformer-Kernel 带有查询项独立性的文档检索

本文所研究的 Transformer-Kernel 模型已经在 TREC Deep Learning benchmark 中表现出强大的重排名表现，它是 BERT 排名模型的有效但略微不够有效的替代品。本文将 TK 体系结构扩展到全检索设置并考虑查询术语独立假设，提出将 Conformer 层结合在一起，同时还演示了将显式术语匹配信号纳入模型可能在全检索设置中特别有用的初步结果。

Jul, 2020

可学习内核函数的线性变换器在上下文模型中更好

为了进一步推动语言模型的次二次架构，我们提出了一种简单而优雅的变化，增强了其上下文学习能力，并通过多查询联想回忆任务和整体语言建模过程在 Pile 数据集上进行了评估。

Feb, 2024