视觉线索和错误修正用于提高翻译稳健性

EMNLPMar, 2021

视觉线索和错误修正用于提高翻译稳健性

Visual Cues and Error Correction for Translation Robustness

Zhenhao Li, Marek Rei, Lucia Specia

TL;DR本文研究如何提高神经机器翻译模型对于嘈杂文本的鲁棒性，针对常见人为错误和三种噪声类型，使用视觉上下文和错误训练来提高模型的性能。实验结果表明，多模态和错误校正组件在保持清洁文本翻译质量的基础上，提高了模型对嘈杂文本的鲁棒性。

Abstract

neural machine translation models are sensitive to noise in the input texts, such as misspelled words and ungrammatical constructions. Existing robustness techniques generally fail when faced with unseen types of

neural machine translation robustness visual context error correction training multimodal

发现论文，激发创造

机器翻译模型是否在不被察觉的情况下变得更加健壮了？

通过对多语种机器翻译模型和大型语言模型在噪声输入情境下的实验研究，我们发现这些模型相比以往模型对各种噪声更加稳健，尤其是在处理干净数据情况下表现相似的情况下。我们还展示了这种趋势在社交媒体翻译实验中同样存在，同时分析了源文本校正技术在减轻噪声影响方面的应用情况。综上所述，我们展示了对于多种类型噪声的稳健性有所增强。

Mar, 2024

来自非母语者的文本的神经机器翻译

本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性，同时提出了一套用于测试神经机器翻译在处理语法错误上的 JFLEG 语法纠错语料库的西班牙语翻译。

Aug, 2018

解决神经机器翻译在输入扰动中的漏洞

本文提出了一种通过 Context-Enhanced Reconstruction（CER）方法提高神经机器翻译（NMT）在噪音输入下的稳健性的方法，该方法包括通过引入人造干扰词破坏自然性来抵制噪声，并通过提供更好的上下文表示来防止噪声传播。在中英文翻译和法英文翻译任务上的实验证明本方法能够提高新闻和社交媒体文本的稳健性，并且在社交媒体文本上的进一步微调实验表明该方法可以收敛到更高的位置并提供更好的适应性。

Apr, 2021

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019

利用合成噪音提高机器翻译的鲁棒性

本文介绍借助带有自然噪声的大型数据集从而使得机器翻译系统更加鲁棒，提升其抗噪能力并部分缓解由此产生的精度损失。

Feb, 2019

视觉背景对噪声多模态神经机器翻译的影响：英语到印度语言的实证研究

利用多模态信息在神经机器翻译 (NMT) 中的有效性进行了研究，发现图像在大规模预训练的单模态 NMT 系统中可能是多余的，同时介绍了合成噪声来评估图像是否有助于模型处理文本噪声，多模态模型在嘈杂环境中微弱地胜过纯文本模型，实验证明视觉背景的效果与源文本噪声有关，对噪声神经机器翻译在多模态设置中的作用有所启示，强调了在各种环境中结合视觉和文本信息以改进翻译质量的重要性。

Aug, 2023

构建强韧的神经机器翻译系统

本文提出采用对抗性稳定性训练来提高神经机器翻译 (NMT) 模型的鲁棒性，通过使编码器和解码器在输入和其扰动版本的情况下行为相似，进而提高模型的容错性。在汉英、英德和英法翻译任务中的实验结果表明，该方法不仅可以显著提高强 NMT 系统的翻译品质，而且可以增强 NMT 模型的鲁棒性。

May, 2018

合成和自然噪声都会破坏神经机器翻译

本文研究了基于字符的神经机器翻译模型，并发现它们能够解决词表外的问题、学习词形变化，但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性：结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。

Nov, 2017

干净与嘈杂语音转录的强健神经机器翻译

本文研究如何使强 NMT 系统适应典型 ASR 错误，并提出适应策略以训练单一系统，能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明，对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的，但在翻译干净文本时会产生轻微恶化。在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。

Oct, 2019

提高实际场景神经机器翻译系统的鲁棒性

本文讨论机器翻译中神经机器翻译的鲁棒性在实际应用中的问题，以及提高模型鲁棒性的方法。

Jul, 2019