研究了不同顺序的多层 Transformer 结构对性能的影响,提出了一种新的顺序 —— 三明治变压器模型,并在多个语言模型基准测试中验证了其性能优势。
Nov, 2019
本文发现每一个数据样本实际上喜欢不同的层序,为此将实例层次重排序引入了 Transformer 模型中以生成变体函数,最终通过多个实验验证表明,此算法可以显著提高语言建模的性能。
Mar, 2021
本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型,用于加速 Transformer 机器翻译系统,在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升(几乎不降低 BLEU)和与 Aan 模型的 1.8 倍加速(比没有使用注意力缓存的基线高出 16 倍)。
Jun, 2019
本研究提出了一种混合压缩模型 LoRAP,通过输入激活加权奇异值分解方法和基于低秩度差异的参数分配方案,增强了 Transformer 模型中 Multi-Head Self-Attention 子层的低秩特性,并提出了无梯度的结构化通道剪枝方法用于 Feed-Forward Network 子层,实验证明我们的提议在多重压缩比下优于之前的结构化压缩方法。
Apr, 2024
本篇论文提出基于注意力机制的神经机器翻译新架构,采用自注意力和前馈神经网络层来避免递归和卷积,但是需要大量的参数和训练才能收敛。同时又提出了加权 Transformer 模型,通过修改注意力层架构,更快地提高 BLEU 得分表现,同时在英译德和英译法机器翻译任务中表现最优。
Nov, 2017
本文介绍了如何使用双语平行数据集来模拟目标语序,在改进了位置编码机制的基础上,提出了一种新的序列重排序方法来显式地模拟源语句子的重排序信息,同时实验证明,该方法在多种翻译任务中均有效。
Apr, 2020
通过澄清 softmax 函数与 Boltzmann 算子之间的联系,我们证明具有低秩权重矩阵的自注意力单层具备完美捕获整个输入序列上下文的能力,从而表明单层 Transformer 具有有限样本的记忆能力,并且由一个自注意力层和两个前馈神经网络组成的 Transformer 是紧致域上连续函数的通用逼近器。
Jul, 2023
通过压缩 Transformer 模型的 decoder 层中 sub-layers 构建模块,提出了 Compressed Attention Network,实现了更高的并行性,性能与强基线相当,速度加快 1.42 倍。
Jan, 2021
该研究提出了一种名为 Group-Transformer 的模型,通过将编码器和解码器的多层表示分组,融合这些组特征来生成目标词,实现了在多语种翻译任务中的表现优于 Transformer 的一致收益。
Jul, 2022
该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法,可以在不降低翻译质量的情况下,在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速,并将参数数量减少 25%。
Oct, 2020