如何在嘈杂的世界中学习？对机器翻译中的真实世界数据噪声进行自校正

Jul, 2024

如何在嘈杂的世界中学习？对机器翻译中的真实世界数据噪声进行自校正

How to Learn in a Noisy World? Self-Correcting the Real-World Data Noise on Machine Translation

Yan Meng, Di Wu, Christof Monz

TL;DR通过模拟实际语义不对齐问题并对其影响进行定量分析，本研究提出一种自我校正方法来处理数据噪声，并在机器翻译中取得了显著的性能提升。

Abstract

The massive amounts of web-mined parallel data contain large amounts of noise. semantic misalignment, as the primary source of the noise, poses a challenge for training →

web-mined parallel data semantic misalignment machine translation systems data noise self-correction method

发现论文，激发创造

利用合成噪音提高机器翻译的鲁棒性

本文介绍借助带有自然噪声的大型数据集从而使得机器翻译系统更加鲁棒，提升其抗噪能力并部分缓解由此产生的精度损失。

Feb, 2019

通过合成噪声训练，提高机器翻译的抗自然噪声鲁棒性

本文提出通过引入随机合成的少量噪音来改善机器翻译中源文本字符级别波动的鲁棒性，从而提高对拼写错误等变异的覆盖率。作者表明，通过在训练时使用一些较为简单的合成噪音，可以实现对常见噪音（例如 Wikipedia 编辑日志中的修正）的鲁棒性，同时不会降低在规范文本上的表现。

Feb, 2019

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019

嘈杂的并行数据对齐

本研究旨在研究现有的词级联模型在嘈杂环境下的对齐问题，并通过噪声模拟和结构偏置的方法提高模型的稳健性，从而显著降低基于神经网络的对齐模型的对齐误差率。

Jan, 2023

对大型语言模型进行微调以进行翻译：杂噪语言数据对齐是否足够？

目前在使用大型语言模型（LLM）进行细调以进行翻译方面的实践中，研究发现 LLMs 在仅用 32 个训练实例进行细调后表现出很强的翻译能力，并且单向细调能够使 LLMs 实现多方向翻译，但是选择翻译方向非常重要，使用英语在目标语言侧进行细调可能导致任务误解，从而阻碍对非英语语言的翻译。在平行数据的目标语言侧引入噪声时也会出现类似的问题，尤其当目标语言在 LLM 的预训练中具有较好的表示时。相比之下，对于不充分表示的语言，噪声的影响较小。研究发现，成功对齐取决于教会模型保持 “表面” 关注，从而避免学习错误的偏差而影响翻译。

Apr, 2024

合成和自然噪声都会破坏神经机器翻译

本文研究了基于字符的神经机器翻译模型，并发现它们能够解决词表外的问题、学习词形变化，但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性：结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。

Nov, 2017

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

带有噪声词汇约束的神经机器翻译

本文提出了一种新的框架，将用户提供的限制条件作为外部记忆存储，并以柔性方式进行处理，从而解决在现实世界中限制条件可能存在的问题，实验结果表明，我们的方法能够在处理嘈杂的限制条件时取得相当大的 BLEU 收益，这些结果使我们能够将所提出的方法应用于不需要用户帮助生成限制条件的新场景中并证明了该方法确实能够提高自动生成的约束下的翻译质量。

Aug, 2019

视觉线索和错误修正用于提高翻译稳健性

本文研究如何提高神经机器翻译模型对于嘈杂文本的鲁棒性，针对常见人为错误和三种噪声类型，使用视觉上下文和错误训练来提高模型的性能。实验结果表明，多模态和错误校正组件在保持清洁文本翻译质量的基础上，提高了模型对嘈杂文本的鲁棒性。

Mar, 2021

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017