大规模多语言神经机器翻译的鲁棒性实证研究
通过对多语种机器翻译模型和大型语言模型在噪声输入情境下的实验研究,我们发现这些模型相比以往模型对各种噪声更加稳健,尤其是在处理干净数据情况下表现相似的情况下。我们还展示了这种趋势在社交媒体翻译实验中同样存在,同时分析了源文本校正技术在减轻噪声影响方面的应用情况。综上所述,我们展示了对于多种类型噪声的稳健性有所增强。
Mar, 2024
本论文提出了一种新的 MNMT 学习目标,基于分布式鲁棒优化,使得这个方法在多种语言对上都可以均衡地表现,并展示了如何实际优化大型翻译语料库。经过广泛实验,证明我们的方法在平均和单个语言翻译表现方面始终优于强基线方法在多对一和一对多的翻译设置下。
Sep, 2021
提出了一种简单且有效的方法来改进神经机器翻译在语音翻译中的稳健性,通过在干净的平行数据集中注入真实输出中存在的噪声以及结合拼音特征,使 NMT 可以在类似的单词分布下进行训练和测试,实验结果表明,该方法在多个噪声测试集上的稳定性表现优异,并在 WMT'17 中英测试集上取得了泛化性能的提高。
Nov, 2018
我们致力于构建一款通用的神经机器翻译系统,通过构建一个单一的大规模多语言 NMT 模型,实现了 103 种语言之间的翻译,带有有效的迁移学习能力,显着提高了低资源语言的翻译质量,同时保持高资源语言翻译质量与竞争双语基线相当,为实现通用 NMT 模型的质量和实用性提供了多个方面的模型构建分析,并指出未来研究的方向和需进一步解决的问题。
Jul, 2019
研究通过对抗训练和数据增强来提高多语言神经机器翻译模型的稳健性,并探究在多语言翻译中稳健性的可传递性。在多个实验中,我们使用字符级、词级和多级噪声来攻击多语言神经机器翻译模型的特定翻译方向,并评估其他翻译方向的稳健性。我们的研究结果表明,稳健性在一个翻译方向获得的情况下确实可以传递到其他翻译方向,并且实证发现字符级噪声和词级噪声的稳健性更有可能传递。
Oct, 2023
本文介绍了我们在 WMT19 机器翻译鲁棒性任务中提交的系统,该任务旨在提高机器翻译对社交媒体中的噪声(如非正式语言和拼写错误)的稳健性。我们针对法语 - 英语和日语 - 英语两种翻译方向,提出了单一和集成系统,集成模型在所有语种中都排名第一。我们讨论了我们所做的预处理选择,并提出了我们对噪声和领域适应性鲁棒性的解决方案。
Jul, 2019