迭代回译的动态数据选择和加权
本文提出了使用不同的机器翻译方法进行回译来生成合成训练语料,并使用数据选择策略来优化其性能,进而提高低资源语言的机器翻译质量。结果表明,这种方法可以有效地提升机器翻译的性能。
May, 2020
该研究探讨了逆向翻译的不同方面,并表明在训练期间预测损失高的单词最能从合成数据的添加中获益。使用以困难预测单词的预测损失和单词频率的采样策略,以及类似背景的选取句子的策略比随机采样的逆向翻译方法在 WMT 新闻翻译任务中提高了翻译质量。在德语 - 英语和英语 - 德语方向上,翻译质量分别提高了 1.7 和 1.2 BLEU 分数。
Aug, 2018
研究神经机器翻译中的自适应集成加权,解决在不牺牲原始域性能的情况下提高新领域性能,通过两个西班牙语 - 英语和三个英语 - 德语任务的逐步适应比较,提出自适应 NMT 集成解码的新方案,采用源信息扩展贝叶斯插值,并在没有域标签的情况下在测试领域中展现了较强的改进。
Jun, 2019
本文对神经机器翻译的数据生成进行了系统研究,比较了不同的单语数据使用方法和多个数据生成过程,并介绍了一些便宜易实现的新数据模拟技术。研究发现,通过回译技术生成人工平行数据非常有效,并给出了原因解释。
Mar, 2019
使用单语数据生成目标语反向翻译的有效方法能够提高神经机器翻译质量。本研究比较了几种方法生成合成源句子的效果,发现使用采样或噪声束搜索的反向翻译方法效果最好,并证实这种合成数据的训练信号强于束搜索或贪婪搜索的数据,同时也比较了它们与真实的平行语料库的效果,并研究了不同领域对它们的影响。最终,将这种方法扩展到数亿条单语数据,获得了 35 BLEU 的 WMT'14 英德测试集上的最新记录。
Aug, 2018
本文通过两阶段课程训练框架及对六种语言对的全面实验,证明了基于预训练方法和在线评分的确定性评分选择数据子集,对神经机器翻译模型进行微调训练的课程训练策略会显著提高 BLEU 质量(高达 2.2 个 BLEU),并且更快地收敛(更新次数减少了约 50%)。
Mar, 2022
本文针对神经机器翻译中的无监督领域自适应问题,提出一种跨语料库数据选择方法,通过对多语言 BERT 进行对比学习,实现源语言和目标语言之间的表示对齐,从而实现零样本领域分类器的可转移性,并且通过联合学习翻译任务和领域区分任务来适应新领域。我们在五个不同的领域和三种语言对的神经机器翻译上进行了跨语料库数据选择方法的评估,并在 COVID-19 疫情实时翻译中进行了应用验证, 实验结果表明,我们提出的方法相对于基线方法的 BLEU 指标得分提高了 1.5 个百分点。
Sep, 2021
本论文提出一种结合了回译和多语言神经机器翻译技术的新技术,通过为一个语言对训练一个模型来改善在低资源和跨领域情况下的机器翻译效果,并且能显著降低培训和部署成本。
May, 2018
利用自训练策略改进 Neural Machine Translation(NMT)模型,通过反向翻译技术来生成高质量的合成数据以训练标准翻译模型,可提高低资源下的翻译品质,提高翻译模型的 BLEU 值。
Jun, 2020