共享注意力权重用于快速 Transformer

IJCAIJun, 2019

共享注意力权重用于快速 Transformer

Sharing Attention Weights for Fast Transformer

Tong Xiao, Yinqiao Li, Jingbo Zhu, Zhengtao Yu, Tongran Liu

TL;DR本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型，用于加速 Transformer 机器翻译系统，在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升（几乎不降低 BLEU）和与 Aan 模型的 1.8 倍加速（比没有使用注意力缓存的基线高出 16 倍）。

Abstract

Recently, the transformer machine translation system has shown strong results by stacking attention layers on both the source and target-language sides. But the inference of this model is slow due to the heavy us

transformer machine translation attention layers fast and lightweight attention model re-use of hidden states speed-up

发现论文，激发创造

机器翻译加权变形器网络

本篇论文提出基于注意力机制的神经机器翻译新架构，采用自注意力和前馈神经网络层来避免递归和卷积，但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型，通过修改注意力层架构，更快地提高 BLEU 得分表现，同时在英译德和英译法机器翻译任务中表现最优。

Nov, 2017

通过平均注意力网络加速神经变换器

通过使用平均注意力网络作为神经 Transformers 解码器中的替代自注意力网络来解决因自注意力网络在解码器中导致的解码缓慢的问题，实现更快速的句子解码，从而提高翻译任务的速度和性能。

May, 2018

给神经机器翻译模型添加可解释的注意力机制改善了单词对齐

提出一种基于 Transformer 架构的简单模型扩展，利用其隐藏表示，仅限于对编码器信息进行注意以预测下一个单词，进一步介绍了一种新的对齐推断过程，直接将目标词的注意力激活率优化为对齐结果，这种对齐方法在两个公开数据集上明显优于 naive 方法，并且与 Giza++ 相当。

Jan, 2019

神经机器翻译的高效推断

该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法，可以在不降低翻译质量的情况下，在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速，并将参数数量减少 25%。

Oct, 2020

Transformer 模型的轻松注意力

本文通过实验表明，构建基于 relaxed attention 的 transformer 架构，可以通过抑制自动回归 transformer 解码器的内部语言模型，实现有效地整合外部语言模型，并且提高了通用 transformer 架构的正则化能力。

Sep, 2022

只需 5% 的注意力：高效的长距离文档级神经机器翻译

通过引入基于轻量级注意力的额外选择层，我们在保持翻译性能的同时加快了 20％的速度，能够实现将注意力仅集中在约 5％的令牌上，从而节省了 93％的计算成本。

Sep, 2023

使用透明化注意力训练更深层的神经机器翻译模型

本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型，我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量，结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。

Aug, 2018

快速 Transformer 解码：仅需要一个写头

本文提出了一种多查询关注机制，使用这种机制可以降低增量解码的内存需求，并通过实验验证了这种关注机制可以使解码速度更快，同时只会导致较小的质量损失。

Nov, 2019

从深度 Transformer 学习轻量级翻译模型

本文提出了一种新颖的基于群排列的知识蒸馏方法，将深度 Transformer 模型压缩为浅层模型，并通过随机遗漏 sub-layers 的 Skipping Sub-Layer 方法来进一步提高模型性能，在保证几乎不丢失 BLEU 的情况下，将学习时间和计算量降低了 8 倍，证明了该方法在多个基准测试中的有效性。

Dec, 2020

注意力全是你需要的

本文提出一种基于注意力机制的 Transformer 模型，优于使用循环或卷积神经网络的现有机器翻译模型，且可并行训练、训练时间更短，使得 BLEU 评分得以显著提高，并成功将该模型应用于英语句法分析等任务。

Jun, 2017