Feb, 2023

Transformer 中 ReLU 和 Softmax 的研究

TL;DR本文研究了 Transformer 模型的架构,介绍了自注意力机制和前馈神经网络,并重建了 ReLU 和 Softmax 之间的关系,提出了使用额外层归一化模块的 Softmax 和 ReLU 相等的概念。此外,研究发现 ReLU 可以处理大量键值槽以及在输入序列很长时表现更出色,并提出了一个全 ReLU 模型–ReLUFormer,在文档翻译等长序列任务中表现更好。