本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高2.9 BLEU分数。
May, 2017
本研究探讨了使用回译数据对NMT模型性能的影响,通过逐步增加回译数据来训练一系列以德语为源语言,以英语为目标语言的NMT系统,并分析了相应的翻译绩效。
Apr, 2018
本论文提出一种结合了回译和多语言神经机器翻译技术的新技术,通过为一个语言对训练一个模型来改善在低资源和跨领域情况下的机器翻译效果,并且能显著降低培训和部署成本。
May, 2018
使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果,发现使用采样或噪声束搜索的反向翻译方法效果最好,并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据,同时也比较了它们与真实的平行语料库的效果,并研究了不同领域对它们的影响。最终,将这种方法扩展到数亿条单语数据,获得了35 BLEU的WMT'14英德测试集上的最新记录。
Aug, 2018
本文对神经机器翻译的数据生成进行了系统研究,比较了不同的单语数据使用方法和多个数据生成过程,并介绍了一些便宜易实现的新数据模拟技术。研究发现,通过回译技术生成人工平行数据非常有效,并给出了原因解释。
Mar, 2019
本论文提出了一种在低资源机器翻译中进行数据增强的通用框架,该框架不仅使用目标端单语数据,还通过相关高资源语言进行桥接,通过在两个步骤中使用词典和修改无监督机器翻译框架,将高资源数据转换为低资源语言,实验证明该方法在极低的资源条件下,与受监督背景转换基线相比,可将翻译质量提高1.5到8个BLEU点。
Jun, 2019
提出源端输入带标记的后向翻译方法,以替代传统的加噪声方法,实验证明该方法在英罗马尼亚语翻译中表现优于传统方法,且在英德语翻译中达到同等水平,重新定义了该领域的最佳表现。
本研究提出在跨熵优化的范畴中改进后向翻译,其涵盖包括从目标到源 NMT 模型中进行采样的更广泛的合成数据生成方案,并在 WMT 2018 德语-英语新闻翻译任务上验证了我们的陈述。
本文提出一种简单但有效的方法,即将目标语句重新排序以匹配源语序,并将其作为另外一种训练时的监督信号,从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。
Aug, 2019
本研究解决了低资源语言翻译任务中数据集扩展的困难,提出了一种利用单语语料库和生成对抗网络(GAN)相结合的新方法,以增强训练数据并提高翻译质量。通过整合翻译记忆(TM)与NMT,并提出了一种新的过滤程序,该工作显著提高了合成句对的质量,为低资源NMT提供了有效的数据增强策略。
Aug, 2024