MTNT：噪声文本机器翻译测试平台

EMNLPSep, 2018

MTNT: A Testbed for Machine Translation of Noisy Text

Paul Michel, Graham Neubig

TL;DR本文提出了一个用于噪声文本机器翻译的基准数据集（MTNT），包括 Reddit 上的嘈杂评论和专业翻译。作者们通过定性和定量的方法检验了该数据集中所包含的各类噪声，并证明了现有机器翻译模型在应对各种噪声方面的表现不佳，这表明 MTNT 可以为处理 MT 中的噪声文本提供一个吸引人的测试平台。

Abstract

Noisy or non-standard input text can cause disastrous mistranslations in most modern machine translation (MT) systems, and there has been growing research interest in creating noise-robust MT systems. However, as of yet there are no publicly available →

machine translation noisy text parallel corpora benchmark dataset translation quality

发现论文，激发创造

利用合成噪音提高机器翻译的鲁棒性

本文介绍借助带有自然噪声的大型数据集从而使得机器翻译系统更加鲁棒，提升其抗噪能力并部分缓解由此产生的精度损失。

Feb, 2019

请语言模型清理您的噪声翻译数据

使用大型语言模型 (LLM) 清理噪声目标句子，创建了 C-MTNT 数据集，提供了更适合噪声评估的基准，并展示了 LLM 在此任务上的出色表现。

Oct, 2023

NTT 关于 WMT19 健壮性任务的机器翻译系统

本文介绍 NTT 的 WMT19 鲁棒性任务中的提交成果，并使用合成语料库、领域自适应和占位符机制等技术，大幅优于以前的基线。实验结果显示，占位符机制可以在翻译过程中临时替换包括表情符号等非标准标记，即使在处理带噪音的文本时也能提高翻译精度。

Jul, 2019

大规模多语言神经机器翻译的鲁棒性实证研究

我们通过实证研究了印度尼西亚 - 汉语翻译在不同噪声环境下的翻译稳健性，并创建了一个用于评估翻译稳健性的基准数据集。

May, 2024

带有对抗去噪训练的强鲁棒性无监督神经机器翻译

本文研究了无监督神经机器翻译在噪声数据下的鲁棒性问题，并且提出了一种针对这种噪声数据的对抗性训练方法，通过去噪来提高无监督神经机器翻译的鲁棒性。经过实验验证，该方法在一些语言对上，显著提高了传统无监督神经机器翻译系统在嘈杂场景下的性能。

Feb, 2020

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019

来自非母语者的文本的神经机器翻译

本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性，同时提出了一套用于测试神经机器翻译在处理语法错误上的 JFLEG 语法纠错语料库的西班牙语翻译。

Aug, 2018

干净与嘈杂语音转录的强健神经机器翻译

本文研究如何使强 NMT 系统适应典型 ASR 错误，并提出适应策略以训练单一系统，能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明，对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的，但在翻译干净文本时会产生轻微恶化。在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。

Oct, 2019

机器翻译鲁棒性首次共享任务结果

该论文介绍了首个旨在提高机器翻译鲁棒性的共享任务的研究成果，共有 11 个团队提交了 23 个系统，人工评估和自动评估 (BLEU) 均显示很高的相关性，系统均有大幅度的改进，最佳系统较基准系统提高了 22.33 个 BLEU 分值。

Jun, 2019

合成和自然噪声都会破坏神经机器翻译

本文研究了基于字符的神经机器翻译模型，并发现它们能够解决词表外的问题、学习词形变化，但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性：结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。

Nov, 2017