Jun, 2021

Luna: 线性统一嵌套注意力

TL;DR本论文提出了一种线性统一嵌套注意力机制 Luna,它用两个嵌套的线性注意力函数来逼近 Softmax 注意力机制,从而实现了仅线性时间和空间复杂度。该方法在长序列建模任务、神经机器翻译和大规模预训练掩码语言建模等多个领域性能优异且高效。