亚线性内存：如何使 Performers SLiM

Dec, 2020

Sub-Linear Memory: How to Make Performers SLiM

Valerii Likhosherstov, Krzysztof Choromanski, Jared Davis, Xingyou Song, Adrian Weller

TL;DR在深度学习方面，使用 Transformer 架构的计算成本很高，使用近期提出的各种线性自我关注机制来解决，观察到 Performers 具有极大的计算灵活性，并且可以在训练期间仅占用 O（1）的内存，为去中心化和民主化的深度学习做出贡献。

Abstract

The transformer architecture has revolutionized deep learning on sequential data, becoming ubiquitous in state-of-the-art solutions for a wide variety of applications. Yet vanilla Transformers are notoriously resource-expensive, requiring $O(L^2)$ in serial time and memory as functions

transformer architecture linear self-attention computational complexity performers time-memory tradeoff

发现论文，激发创造

Linformer: 线性复杂度的自注意力

本文提出了一种新的自注意力机制 ——Linformer，该机制通过近似自注意力矩阵，将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n)，从而显著提高了 Transformer 模型的内存和时间效率。

Jun, 2020

关于共享内存中注意力因子化的困难

通过对内存进行注意操作与通过输入信号筛选交互相对来说不够优化，可以利用 Luna 或 Memory Augmented Transformer 等模型减少注意计算复杂度或在块处理中传播信息来显著提高性能。

Mar, 2024

线性时间变压器的潜在注意力

在传统的 transformer 模型中，标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法，将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用，通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比，标准的下一个记号预测的时间复杂度与序列长度成线性关系，而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当，但允许在标准 attention 不可行的背景窗口范围内进行扩展。

Feb, 2024

利用线性可扩展长上下文变换器进行蛋白质掩码语言建模

本文介绍了一种名为 Performer 的新 Transformer 模型，它通过 Fast Attention Via Orthogonal Random features (FAVOR) 实现了线性标度并具有子二次空间复杂度和强大的理论保证，用于模拟蛋白质序列建模等复杂任务具有显著的有效性。

Jun, 2020

XNOR-FORMER: 长语音 Transformer 准确近似学习

本研究开发出一种新型的线性变压器，通过检验自我关注中关键查询产品的特性，发现其在语音识别和语音摘要方面优于现有的方法。

Oct, 2022

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers 在适度规模的语言建模中表现竞争力，并在训练速度上与基于 CUDA 优化的 FlashAttention-2 相媲美。

Dec, 2023

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。