神经机器翻译中基于 Transformer 的异构编码器扩展
该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法,可以在不降低翻译质量的情况下,在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速,并将参数数量减少 25%。
Oct, 2020
本文提出了一种新型 Transformer 结构,其特点是全层归一化、加权残差连接、利用强化学习的位置编码和零屏蔽自注意力。通过使用 Multi30k 翻译数据集进行双语评估替代,验证了所提出的增强型 Transformer 模型。结果显示,增强型 Transformer 的 BLEU 分数比原始 Transformer 模型高出了 202.96%。
Oct, 2023
Multi-channel Encoder is proposed to improve Attention-based Encoder-Decoder architecture for neural machine translation by enhancing encoding components with different levels of composition, achieving a 6.52 BLEU point improvement on Chinese-English translation and BLEU=38.8 on the WMT14 English-French task.
Dec, 2017
本研究中,我们提出了一种名为 HySAN 的新型自注意力机制,它可以通过针对不同类型的自注意力网络设计特定的掩码来提取各种语义,并引入挤压门来融合不同类型的自注意力网络,在三个机器翻译任务上实现了优于 Transform 的显著基线,并实现了超越最先进的 NMT 系统的卓越结果。
Nov, 2018
本研究介绍了一种使用统一方法构建多语言神经机器翻译框架的方法,不需要对网络架构进行特殊处理,能在标准训练方式下学习最少数量的自由参数,在资源匮乏的翻译场景中表现出显著的效果,同时在源语言和目标语言之间没有直接平行语料库的翻译任务中也具有有趣和有前途的结果。
Nov, 2016
本文研究了通过浅层模型堆叠训练深度编码器的浅层到深层的方法对神经机器翻译模型进行改进,并通过实验表明该方法可以显著提高翻译质量,并在 WMT'16 和 WMT'14 的任务中取得了 30.33 和 43.29 的 BLEU 分数。
Oct, 2020
本文提出了一种新的神经机器翻译方法,采用层聚合和多层注意力机制,通过引入辅助正则化项促进不同层捕获多样化信息,实验结果表明该方法在 WMT14 英德和 WMT17 中英数据上具有普适性与有效性。
Oct, 2018
本文研究 Transform 模型在机器翻译中的应用,探讨其编码器 - 解码器多头注意力机制中,不同注意力头与翻译候选词的对应关系,提出一种操控头以生成多样化翻译的方法,并利用这些多样化翻译进行后向翻译以改进数据增强技术,并且不会严重降低翻译质量。实验结果表明,与这些多样化翻译的后向翻译可以显著提高翻译任务的性能,与之相关的对话响应生成任务的实验也验证了多样化的效果。
Nov, 2019
研究多编码器方法在文档级神经机器翻译中的应用,证实上下文编码器不仅编码周围的句子还会产生噪声,探讨引入噪音和严谨的 dropout 方法在多编码器 NMT 中的作用,实验结果证明噪声训练在小数据集中发挥重要作用,并通过使用噪音生成和 dropout 方法,在 IWSLT Fr-En 任务上创立了新的最优效果。
May, 2020
通过研究多种融合技术和多编码器学习方法,以实现对变压器架构的最佳融合,仅在训练期间对两个编码器 - 解码器组合的多头注意权重输出进行加权组合,在推理时使用幅度特征编码器,成功地在 WSJ 上展示了一致的改进,并通过简单的后期融合在 WSJ 上取得了状态 - of-the-art 的表现。
Mar, 2021