GTrans: 分组融合转换器层用于神经机器翻译
本文提出多层表示融合(MLRF)方法来融合神经机器翻译系统中的堆叠层,并设计三个融合函数以从堆叠中学习更好的表示。实验结果显示,我们的方法在 IWSLT 德英和 NIST 中英机器翻译任务上分别比强 Transformer 基线提高了 0.92 和 0.56 BLEU 分数,这是新的德英翻译的最新水平。
Feb, 2020
本文提出了一种新的神经机器翻译方法,采用层聚合和多层注意力机制,通过引入辅助正则化项促进不同层捕获多样化信息,实验结果表明该方法在 WMT14 英德和 WMT17 中英数据上具有普适性与有效性。
Oct, 2018
本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能,用于训练一种适用于多语言机器翻译的共享 Transformer 网络,缓解梯度消失问题,从而使得深度 Transformer 网络(例如 100 层)稳定训练,并在机器翻译和语言建模任务中实现了更好的性能。
Sep, 2020
本研究通过开发一种通用的探测任务来分析 Transformer-based 解码器中的每个模块如何传递信息,并针对三个主要翻译数据集进行了广泛实验。通过分析发现,Transformer 解码器中每个模块对应的不同的源信息和目标语前缀的使用方式。同时,通过实验得出,每层解码器中的残差前馈模块可以被取消,而不影响性能,从而极大地降低了计算量和参数数量,提高了培训和推理速度
Oct, 2020
本文研究了通过浅层模型堆叠训练深度编码器的浅层到深层的方法对神经机器翻译模型进行改进,并通过实验表明该方法可以显著提高翻译质量,并在 WMT'16 和 WMT'14 的任务中取得了 30.33 和 43.29 的 BLEU 分数。
Oct, 2020
本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法,在机器翻译任务中,构建比 Transformer-Big 模型更深层的 Transformer 模型,并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统(30/25 层编码器)与浅层 Transformer-Big / 基线(6 层编码器)相比,BLEU 分数提高了 0.4-2.4 点,而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。
Jun, 2019
通过引入归纳偏置(locality assumption)作为一种假设,从目标到源的注意力的假设空间减小,来解决翻译单元扩展至整个文档时出现的训练失败问题,我们提出了 G-Transformer。实验表明,G-Transformer 比 Transformer 更快、更稳定地收敛,在三个基准数据集上实现了新的最优 BLEU 分数。
May, 2021
我们提出了一个多层框架,通过合并和解散以及插值操作来加速训练,从而降低了 BERT/GPT-Base 模型的计算成本约 20%,以及 BERT-Large 模型的计算成本高达 51.6%,同时保持了性能。
Apr, 2024
通过引入 fuse-attention 模块,提出了一种扩展的序列到序列模型( extsc {FuSion}),以适当地将上一层的信息融合回编码和解码过程中,有效地解决了表示缠结问题,并在两个实际基准测试上取得了竞争性甚至最先进的结果,从而验证了我们的提议的有效性。
Jul, 2023
本文提出了一种在 Transformer 网络中显式地建模全局表示的新方法 —— 全局表示增强的 Transformer(GRET),并将其应用于机器翻译和文本摘要两个文本生成任务中,并通过实验证明其在自然语言生成方面的有效性。
Feb, 2020