Transformer 中 ReLU 和 Softmax 的研究

Feb, 2023

A Study on ReLU and Softmax in Transformer

Kai Shen, Junliang Guo, Xu Tan, Siliang Tang, Rui Wang...

TL;DR本文研究了 Transformer 模型的架构，介绍了自注意力机制和前馈神经网络，并重建了 ReLU 和 Softmax 之间的关系，提出了使用额外层归一化模块的 Softmax 和 ReLU 相等的概念。此外，研究发现 ReLU 可以处理大量键值槽以及在输入序列很长时表现更出色，并提出了一个全 ReLU 模型–ReLUFormer，在文档翻译等长序列任务中表现更好。

Abstract

The transformer architecture consists of self-attention and feed-forward networks (FFNs) which can be viewed as key-value memories according to previous works. However, FFN and traditional memory utilize different activation functions (i.e., →

transformer architecture key-value memory relu self-attention network document translation

发现论文，激发创造

以 ReLU 替代 Vision Transformers 中的 softmax

通过在视觉变换器上进行实验，我们发现当将注意力 softmax 替换为 ReLU 等点层激活时，通过将结果除以序列长度可以减轻准确性下降现象。我们在 ImageNet-21k 上对各种规模的视觉变换器进行训练的实验表明，对于计算扩展性而言，ReLU-attention 的性能可以接近或匹配 softmax-attention。

Sep, 2023

抑制因子：ReLU 和基于加法的注意力用于高效 Transformer

通过替代点积和基于 Softmax 的注意力机制，将其替换为仅包含加法和 ReLU 激活的替代机制，以提高量化 Transformer 的计算效率，并支持在资源受限的硬件或同态加密等替代算术系统上运行更大规模的量化 Transformer 模型。

Oct, 2023

Softmax 的优势：揭示其在线性注意力上的性能优势

通过对 softmax 和线性注意机制进行全面的比较分析，我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。

Oct, 2023

稀疏注意力与线性单元

本研究介绍了一种名为 ReLA 的新型的、可实现稀疏注意的模型，该模型采用 ReLU 激活函数来代替 softmax 函数，通过额外的门控函数或专门的初始化实现了训练稳定性。实验结果表明，ReLA 模型在机器翻译任务中表现良好，且实现效率高，同时能够实现高稀疏率和头部多样性。

Apr, 2021

非线性单元的两层回归的收敛性

大语言模型中的注意力计算结构，以及利用 Hessian 矩阵找到近似最优解的算法。

Aug, 2023

Transformer 前馈层中关键值记忆更新的实证研究

通过在大型语言模型中的知识编辑和微调任务中比较更新键或值的两种方法，我们对 transformer 中的前馈网络进行了实证消融研究，从而更好地理解前馈网络作为一组键值神经存储器来恢复抽象高层知识。

Feb, 2024

一层自注意力变压器使用低秩权重矩阵是通用逼近器吗？

通过澄清 softmax 函数与 Boltzmann 算子之间的联系，我们证明具有低秩权重矩阵的自注意力单层具备完美捕获整个输入序列上下文的能力，从而表明单层 Transformer 具有有限样本的记忆能力，并且由一个自注意力层和两个前馈神经网络组成的 Transformer 是紧致域上连续函数的通用逼近器。

Jul, 2023

神经网络中 ReLU 激活函数和 Softmax 输出层的逼近性能研究

该研究论文扩展了通用近似理论，说明了使用 ReLU 激活函数和非线性 softmax 输出层的神经网络能够以任意精度逼近任何在 L1 空间中的函数，并且可用于解决实际的多类别模式分类问题中。此外，这是 softmax 输出层在神经网络中用于模式分类的第一个理论证明。

Feb, 2020

一种广泛前馈即可解决所有问题

通过删除解码器层的 FFN 并在编码器中共享单个 FFN，我们能够大幅减少参数数量，只有轻微的准确率下降，最终通过增加共享 FFN 的隐藏维度将这个架构恢复到原始尺寸，从而取得了在准确率和延迟方面的显著提升。

Sep, 2023

仅关注注意力的 Transformer 模型及使用注意力头实现的 MLP

证明了一个 MLP 神经元可以通过具有内部维度 1 的带有掩码注意力头来实现，只要 MLP 的激活函数来自包括 SiLU 以及接近 ReLU 和 GeLU 的受限类。同时证明了注意力头可以分别执行 MLP 的组成部分（线性变换和激活函数），并且可以在其权重矩阵中编码任意的掩码模式，误差可以任意小。

Sep, 2023