提高实际场景神经机器翻译系统的鲁棒性

MMJul, 2019

提高实际场景神经机器翻译系统的鲁棒性

Improving Robustness in Real-World Neural Machine Translation Engines

Rohit Gupta, Patrik Lambert, Raj Nath Patel, John Tinsley

TL;DR本文讨论机器翻译中神经机器翻译的鲁棒性在实际应用中的问题，以及提高模型鲁棒性的方法。

Abstract

As a commercial provider of machine translation, we are constantly training engines for a variety of uses, languages, and content types. In each case, there can be many variables, such as the amount of training data

machine translation neural mt robustness training data quality

发现论文，激发创造

构建强韧的神经机器翻译系统

本文提出采用对抗性稳定性训练来提高神经机器翻译 (NMT) 模型的鲁棒性，通过使编码器和解码器在输入和其扰动版本的情况下行为相似，进而提高模型的容错性。在汉英、英德和英法翻译任务中的实验结果表明，该方法不仅可以显著提高强 NMT 系统的翻译品质，而且可以增强 NMT 模型的鲁棒性。

May, 2018

机器翻译模型是否在不被察觉的情况下变得更加健壮了？

通过对多语种机器翻译模型和大型语言模型在噪声输入情境下的实验研究，我们发现这些模型相比以往模型对各种噪声更加稳健，尤其是在处理干净数据情况下表现相似的情况下。我们还展示了这种趋势在社交媒体翻译实验中同样存在，同时分析了源文本校正技术在减轻噪声影响方面的应用情况。综上所述，我们展示了对于多种类型噪声的稳健性有所增强。

Mar, 2024

利用合成噪音提高机器翻译的鲁棒性

本文介绍借助带有自然噪声的大型数据集从而使得机器翻译系统更加鲁棒，提升其抗噪能力并部分缓解由此产生的精度损失。

Feb, 2019

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019

提高语音翻译的稳健性

提出了一种简单且有效的方法来改进神经机器翻译在语音翻译中的稳健性，通过在干净的平行数据集中注入真实输出中存在的噪声以及结合拼音特征，使 NMT 可以在类似的单词分布下进行训练和测试，实验结果表明，该方法在多个噪声测试集上的稳定性表现优异，并在 WMT'17 中英测试集上取得了泛化性能的提高。

Nov, 2018

大规模多语言神经机器翻译的鲁棒性实证研究

我们通过实证研究了印度尼西亚 - 汉语翻译在不同噪声环境下的翻译稳健性，并创建了一个用于评估翻译稳健性的基准数据集。

May, 2024

跨语言多语种神经机器翻译中的鲁棒性是否可转移？

研究通过对抗训练和数据增强来提高多语言神经机器翻译模型的稳健性，并探究在多语言翻译中稳健性的可传递性。在多个实验中，我们使用字符级、词级和多级噪声来攻击多语言神经机器翻译模型的特定翻译方向，并评估其他翻译方向的稳健性。我们的研究结果表明，稳健性在一个翻译方向获得的情况下确实可以传递到其他翻译方向，并且实证发现字符级噪声和词级噪声的稳健性更有可能传递。

Oct, 2023

机器翻译对自然无语义变化的鲁棒性

通过引入自然非语义变化（NAV）概念并利用人工生成的变化对机器翻译进行微调，可提高机器翻译在困难输入（如噪声数据和边缘词语）下的性能，还发现 NAV 的鲁棒性可以跨语言进行转移，但合成扰动无法实现所有有机 NAV 数据的优点。

May, 2022

提升神经机器翻译

本文提出了一种基于数据增强和引导的训练方法来缓解神经机器翻译 (NMT) 训练效率方面的问题，它模拟人类学习过程，能够提高准确性并节省 20% 的训练时间。

Dec, 2016

解决神经机器翻译在输入扰动中的漏洞

本文提出了一种通过 Context-Enhanced Reconstruction（CER）方法提高神经机器翻译（NMT）在噪音输入下的稳健性的方法，该方法包括通过引入人造干扰词破坏自然性来抵制噪声，并通过提供更好的上下文表示来防止噪声传播。在中英文翻译和法英文翻译任务上的实验证明本方法能够提高新闻和社交媒体文本的稳健性，并且在社交媒体文本上的进一步微调实验表明该方法可以收敛到更高的位置并提供更好的适应性。

Apr, 2021