利用合成噪音提高机器翻译的鲁棒性

ACLFeb, 2019

利用合成噪音提高机器翻译的鲁棒性

Improving Robustness of Machine Translation with Synthetic Noise

Vaibhav Vaibhav, Sumeet Singh, Craig Stewart, Graham Neubig

TL;DR本文介绍借助带有自然噪声的大型数据集从而使得机器翻译系统更加鲁棒，提升其抗噪能力并部分缓解由此产生的精度损失。

Abstract

Modern machine translation (MT) systems perform consistently well on clean, in-domain text. However most human generated text, particularly in the realm of social media, is full of typos, slang, dialect, idiolect and other noise which can have a disastrous impact on the →

machine translation noisy text dataset robustness accuracy

发现论文，激发创造

合成和自然噪声都会破坏神经机器翻译

本文研究了基于字符的神经机器翻译模型，并发现它们能够解决词表外的问题、学习词形变化，但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性：结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。

Nov, 2017

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019

通过合成噪声训练，提高机器翻译的抗自然噪声鲁棒性

本文提出通过引入随机合成的少量噪音来改善机器翻译中源文本字符级别波动的鲁棒性，从而提高对拼写错误等变异的覆盖率。作者表明，通过在训练时使用一些较为简单的合成噪音，可以实现对常见噪音（例如 Wikipedia 编辑日志中的修正）的鲁棒性，同时不会降低在规范文本上的表现。

Feb, 2019

MTNT：噪声文本机器翻译测试平台

本文提出了一个用于噪声文本机器翻译的基准数据集（MTNT），包括 Reddit 上的嘈杂评论和专业翻译。作者们通过定性和定量的方法检验了该数据集中所包含的各类噪声，并证明了现有机器翻译模型在应对各种噪声方面的表现不佳，这表明 MTNT 可以为处理 MT 中的噪声文本提供一个吸引人的测试平台。

Sep, 2018

请语言模型清理您的噪声翻译数据

使用大型语言模型 (LLM) 清理噪声目标句子，创建了 C-MTNT 数据集，提供了更适合噪声评估的基准，并展示了 LLM 在此任务上的出色表现。

Oct, 2023

来自非母语者的文本的神经机器翻译

本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性，同时提出了一套用于测试神经机器翻译在处理语法错误上的 JFLEG 语法纠错语料库的西班牙语翻译。

Aug, 2018

机器翻译模型是否在不被察觉的情况下变得更加健壮了？

通过对多语种机器翻译模型和大型语言模型在噪声输入情境下的实验研究，我们发现这些模型相比以往模型对各种噪声更加稳健，尤其是在处理干净数据情况下表现相似的情况下。我们还展示了这种趋势在社交媒体翻译实验中同样存在，同时分析了源文本校正技术在减轻噪声影响方面的应用情况。综上所述，我们展示了对于多种类型噪声的稳健性有所增强。

Mar, 2024

机器翻译对自然无语义变化的鲁棒性

通过引入自然非语义变化（NAV）概念并利用人工生成的变化对机器翻译进行微调，可提高机器翻译在困难输入（如噪声数据和边缘词语）下的性能，还发现 NAV 的鲁棒性可以跨语言进行转移，但合成扰动无法实现所有有机 NAV 数据的优点。

May, 2022

提高语音翻译的稳健性

提出了一种简单且有效的方法来改进神经机器翻译在语音翻译中的稳健性，通过在干净的平行数据集中注入真实输出中存在的噪声以及结合拼音特征，使 NMT 可以在类似的单词分布下进行训练和测试，实验结果表明，该方法在多个噪声测试集上的稳定性表现优异，并在 WMT'17 中英测试集上取得了泛化性能的提高。

Nov, 2018

NTT 关于 WMT19 健壮性任务的机器翻译系统

本文介绍 NTT 的 WMT19 鲁棒性任务中的提交成果，并使用合成语料库、领域自适应和占位符机制等技术，大幅优于以前的基线。实验结果显示，占位符机制可以在翻译过程中临时替换包括表情符号等非标准标记，即使在处理带噪音的文本时也能提高翻译精度。

Jul, 2019