从有限的平行语料中生成合成训练样本,即非流利目标端句子能够在多语种机器翻译框架中有效地提高翻译性能,并且这种方法对原始训练语料的规模不敏感,从而使系统更鲁棒、产生更少的幻觉。
Jan, 2024
使用大型预训练模型生成合成目标数据可以提高限定资源环境下机器翻译模型的性能,这种方法可以优于在实际数据上训练模型,效果更好的原因可以归因于模型参数的数量限制和优化效果的提高。
May, 2023
通过交替使用合成和真实语料库,提出一种神经机器翻译的备选训练方法,实验结果表明,在汉英翻译和德英翻译任务中,该方法在几种强基线模型上都表现出更好的性能,真实数据有助于将 NMT 模型参数导向具有较高 BLEU 分数的点并提高一致性的翻译表现。
Jun, 2021
本文提出通过引入随机合成的少量噪音来改善机器翻译中源文本字符级别波动的鲁棒性,从而提高对拼写错误等变异的覆盖率。作者表明,通过在训练时使用一些较为简单的合成噪音,可以实现对常见噪音(例如 Wikipedia 编辑日志中的修正)的鲁棒性,同时不会降低在规范文本上的表现。
Feb, 2019
使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果,发现使用采样或噪声束搜索的反向翻译方法效果最好,并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据,同时也比较了它们与真实的平行语料库的效果,并研究了不同领域对它们的影响。最终,将这种方法扩展到数亿条单语数据,获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。
Aug, 2018
本文探讨了使用合成的并行数据在神经机器翻译中的作用,提出了一种新型的伪并行语料库,在捷克 - 德语和法语 - 德语翻译方面进行了实验证明其有效性。
Apr, 2017
本文介绍借助带有自然噪声的大型数据集从而使得机器翻译系统更加鲁棒,提升其抗噪能力并部分缓解由此产生的精度损失。
通过理论和实证研究,我们确定了合成数据对回译神经机器翻译(NMT)性能的两个关键因素,即质量和重要性。基于我们的发现,我们提出了一种简单而有效的方法来生成合成数据,以更好地权衡这两个因素,从而为回译提供更好的性能。通过在 WMT14 的基准任务中运行广泛的实验,我们的回译模型显著优于标准的回译基线方法,证明了我们提出方法的有效性。
Oct, 2023
该研究探讨了逆向翻译的不同方面,并表明在训练期间预测损失高的单词最能从合成数据的添加中获益。使用以困难预测单词的预测损失和单词频率的采样策略,以及类似背景的选取句子的策略比随机采样的逆向翻译方法在 WMT 新闻翻译任务中提高了翻译质量。在德语 - 英语和英语 - 德语方向上,翻译质量分别提高了 1.7 和 1.2 BLEU 分数。
本研究旨在探讨何种情况下用合成资源进行预训练是有效的。我们将神经机器翻译作为情景背景,研究使用两种新方法进行翻译模型预训练的影响,并在多种语言对上进行实证评估,结果表明预训练的好处即使在混淆或纯合成数据的情况下也可以实现,并研究混淆和合成预训练技术能够减轻虚假模型毒性的程度。
Dec, 2022