双向训练优化神经机器翻译
本论文提出一种结合了回译和多语言神经机器翻译技术的新技术,通过为一个语言对训练一个模型来改善在低资源和跨领域情况下的机器翻译效果,并且能显著降低培训和部署成本。
May, 2018
该论文提出了一种简单有效的联合去噪预训练方法(DoT),该方法不需要增加任何参数或训练步骤,适用于神经机器翻译并不断提升翻译性能,尤其在高资源情况下,性能优于先前的预训练模型 mBART。
Jan, 2022
本文提出了一种新方法,通过联合 EM 优化方法融合源语言和目标语言的神经机器翻译模型,以更好地利用单语数据来提高翻译质量,实验结果表明,相对于使用单语数据训练的强基线系统,该方法可以同时提高源到目标和目标到源模型的翻译质量。
Mar, 2018
本研究提出了同步双向神经机器翻译模型,通过同时进行从左到右和从右到左解码,以相互交互的方式预测输出,从而利用历史和未来信息,并在大规模数据上实验证明其优于强的 Transformer 模型,达到了中英文和英德文翻译任务的最新性能。
May, 2019
通过将单语数据与自动背景翻译配对,我们未改变神经网络结构,使用目标语单语训练数据进行神经机器翻译(NMT)模型的训练,并在多项任务上取得最新的最优结果(最高 + 2.8-3.7 BLEU),并证明了使用领域单语和平行数据进行微调,对 IWSLT 15 任务英德翻译有实质性的改善。
Nov, 2015
本文提出了 EcXTra 方法,使用预训练模型,在 40 种语言间进行多语言微调,使用双向回译来生成合成的语言平行数据,达到了无监督 NMT 的翻译效果。该方法在处理低资源语言上表现出优秀的翻译性能,尤其在英语到哈萨克语的翻译任务上达到了新的最先进水平。
Sep, 2022
神经机器翻译在近年来取得了快速的进展,我们提出了一种双向语义评估方法,通过计算源文本与翻译的语义距离,实现了在同一语言层面上的句子比较,该方法在英德语对的多个机器翻译系统中得出的平均评估分数与人工评估之间存在强相关性,同时提出了一种新的多语言方法来对 MT 系统进行排序,无需平行语料库。
Mar, 2024
本研究探讨了预训练和回译方法对神经机器翻译的性能提升效果,发现预训练对编码器模块的贡献更大,回译对解码器模块的性能提升更为明显,两种方法相互补充,使得在 WMT16 英 - 罗马尼亚语和英 - 俄语翻译语料库中取得了最先进的翻译效果。
Oct, 2021
利用自训练策略改进 Neural Machine Translation(NMT)模型,通过反向翻译技术来生成高质量的合成数据以训练标准翻译模型,可提高低资源下的翻译品质,提高翻译模型的 BLEU 值。
Jun, 2020
本文提出了三种有效的预训练策略来提高神经机器翻译的性能,通过使用一种中间语言来实现对原语言和目标语言对之间关系的增强,从而在 WMT 2019 的 法德和德捷语任务中超过了多语言模型,同时优化了零样本 / 零资源情境下的翻译效果。
Sep, 2019