关于低资源语言翻译的最优 Transformer 深度
本文研究了神经机器翻译中低资源语种的问题,通过在 IWSLT14 数据集上的实验发现,在优化超参数设置的情况下,Transformer 模型在低资源情况下的翻译质量可以提高 7.3 个 BLEU 分数。
Nov, 2020
本篇研究论文提出了一种通过适当使用层归一化技术以及一种新的传递先前层组合方法,在机器翻译任务中,构建比 Transformer-Big 模型更深层的 Transformer 模型,并在 WMT'16 英德、NIST OpenMT'12 中英和更大的 WMT'18 中英任务中将深层系统(30/25 层编码器)与浅层 Transformer-Big / 基线(6 层编码器)相比,BLEU 分数提高了 0.4-2.4 点,而且深度模型的大小更小 1.6 倍并且训练速度更快 3 倍。
Jun, 2019
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译 (NMT) 模型,产生仅使用 7 万个训练数据令人满意的翻译结果。
Aug, 2017
本文探讨了非常深的 Transformer 模型在神经机器翻译中的应用,使用一种简单但有效的初始化技术来稳定训练,我们证明了可行性,并且通过使用 60 个编码器层和 12 个解码器层,此类深度模型在 WMT14 英法和英德翻译基准上录得了比基准浅层模型高达 2.5 BLEU 的结果(其中包括通过回译得到的 46.4 BLEU 以及 30.1 BLEU),代码和训练模型将在公开网站上开放。
Aug, 2020
该研究旨在研究机器翻译中 Transformer 模型在低资源语言对(英爱尔兰语和英马拉地语)中的效果,并通过优化超参数和子词模型类型来显著提高低资源语言对的翻译质量。此外,还引入了 adaptNMT 和 adaptMLLM 两个开源应用程序,简化了神经机器翻译模型的开发、微调和部署过程,使其更容易被开发人员和翻译人员使用。
Mar, 2024
本研究提出一种概率框架来自动学习选择哪些层来使用以优化 Transformer 模型的性能,用于训练一种适用于多语言机器翻译的共享 Transformer 网络,缓解梯度消失问题,从而使得深度 Transformer 网络(例如 100 层)稳定训练,并在机器翻译和语言建模任务中实现了更好的性能。
Sep, 2020
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
我们提出了一种基于可解释性的 NMT 训练方法,应用于无监督和有监督模型训练,用于翻译英语和三种不同资源的语言 —— 法语、古吉拉特语和哈萨克语。我们的结果表明,我们的方法在低资源条件下可以有希望,优于简单的训练基线;尽管改进只是微小的,但为进一步探索这种方法和参数以及其扩展到其他语言奠定了基础。
Nov, 2023
本篇论文介绍了如何使用多语言神经机器翻译(multilingual NMT)解决低资源语种翻译问题,提出了一种基于迭代自训练的方法可以利用单语数据来提高零样本翻译的性能。实验结果表明,多语言 NMT 优于传统的双语 NMT,Transformer 模型优于循环神经网络模型,零样本 NMT 优于传统的基于中间语的翻译方法,甚至与完全训练的双语系统相当。
Sep, 2019
本文研究了通过参数效率的多路径结构,如何影响变压器 (Transformer) 模型,并通过 12 个 WMT 机器翻译任务的广泛实验表明,使用相同数量的参数,较浅的多路径模型可以实现类似甚至更好的性能,揭示了在训练更好的大型 Transformer 时,应该注意多路径结构和模型深度和宽度之间的平衡。
May, 2023