该研究提出了一种转移学习的方法,通过先训练一个高资源语言对以及将一些已学习的参数转移至低资源语言对,来初始化和约束训练,显著提高了Bleu分数,并将低资源机器翻译性能接近于强的基于语法的机器翻译系统,超过了其一个语言对的性能,并且用于重新评分可以进一步提高低资源机器翻译的表现。
Apr, 2016
本文提出了一种新颖的领域自适应方法——“混合微调”,用于神经机器翻译。该方法将微调和多领域 NMT 两种现有方法相结合,并在一个混合了内外领域语料库的平行语料库上对NMT模型进行微调,然后通过增加人工标记来指示特定领域对所有语料库进行增强。我们在实证基础上比较了我们的方法与微调和多领域方法,讨论了它的优点和缺点。
Jan, 2017
我们致力于构建一款通用的神经机器翻译系统,通过构建一个单一的大规模多语言NMT模型,实现了103种语言之间的翻译,带有有效的迁移学习能力,显着提高了低资源语言的翻译质量,同时保持高资源语言翻译质量与竞争双语基线相当,为实现通用NMT模型的质量和实用性提供了多个方面的模型构建分析,并指出未来研究的方向和需进一步解决的问题。
Jul, 2019
本篇论文介绍了如何使用多语言神经机器翻译(multilingual NMT)解决低资源语种翻译问题,提出了一种基于迭代自训练的方法可以利用单语数据来提高零样本翻译的性能。实验结果表明,多语言NMT优于传统的双语NMT,Transformer模型优于循环神经网络模型,零样本NMT优于传统的基于中间语的翻译方法,甚至与完全训练的双语系统相当。
Sep, 2019
本研究提出了一种简单而有效的适应NMT模型的方法,该方法是将微小的任务特定适配层注入预训练模型,能够同时适应多个不同的任务,并在两项任务中得到了验证,理论与全面的微调相当。
本论文研究如何使用语言重叠来进行翻译,在仅有少量单语数据的情况下,结合去噪自编码、回译和对抗性目标,提出了一种名为NMT-Adapt的方法,实现了对低资源语言的翻译的提高。
May, 2021
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和/或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从业者选择适合其应用程序的算法。
Jul, 2021
本文研究了在机器翻译领域中适配器的组成方法,旨在实现多领域和多语言(全资源场景)的参数效率适配,或在无法提供特定语言对的平行数据(部分资源场景)中的跨语言转移。适配器通常由语言特定的适配器和领域特定的适配器组成,但这篇论文发现了将两种适配器简单组合的方法往往会造成缺失语言的灾难性遗忘,因此提出了新的适配器组合方式以减轻这一问题,并最大程度地实现跨语言转移。通过此种最佳适配器组合方式,我们实现了在没有场内数据的源语言上平均提高3-4BLEU,而在没有场内数据的目标语言上与反向翻译相结合也达到了类似的改进。
Oct, 2021
本研究探讨了针对预训练第三方 NMT 模型的单语和平行数据方法在领域适应中的效果,在低资源条件下提出了集成方法来缓解翻译质量的降低,并给出了在三个领域和四个语言对中的建议。
Jun, 2022
本文讨论了如何在多领域和多语言神经机器翻译 (MDML-NMT) 中跨语言传输领域信息,以提高零样本翻译性能和帮助域缺失的多领域 NMT 的泛化。通过组合多语言和多领域 NMT 及添加编码器目标语言标签等有效策略,实现了学习到有针对性的表示和提高性能的目的。
Oct, 2022