通过数据增强提高神经机器翻译的鲁棒性:超越回译
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高2.9 BLEU分数。
May, 2017
本文研究了基于字符的神经机器翻译模型,并发现它们能够解决词表外的问题、学习词形变化,但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性:结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。
Nov, 2017
本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性,同时提出了一套用于测试神经机器翻译在处理语法错误上的JFLEG语法纠错语料库的西班牙语翻译。
Aug, 2018
本篇论文研究了神经机器翻译中的一种特殊噪声-同音替换,提出将源语言句子的文本和音素信息进行联合嵌入,并使用同音替换扩充训练数据集来提高模型对同音替换的鲁棒性,实验结果表明,放置在音素信息上的大多数权重可能比文本信息更有利于提高翻译质量和模型鲁棒性。
Oct, 2018
本文研究如何使强NMT系统适应典型ASR错误,并提出适应策略以训练单一系统,能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明,对包括ASR转录本的大量并行数据进行调整对于相同类型的测试数据是有益的,但在翻译干净文本时会产生轻微恶化。 在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。
Oct, 2019
本文提出了衡量NMT模型抗干扰性能的一些额外指标,并针对一类使用子单词规范化方法的模型进行了广泛评估,结果表明我们提出的指标揭示了使用子单词规范化方法时抗干扰性能提高的明显趋势。
May, 2020
本文介绍了一种名为TAFT的数据驱动技术,它利用fine-tuning策略加入噪声训练Transformer模型,并提出了两种新型技术CD和DCD以帮助模型更好地处理噪声,最终在英德翻译语料中实现更高的鲁棒性。
Dec, 2020
本文提出了一种通过Context-Enhanced Reconstruction(CER)方法提高神经机器翻译(NMT)在噪音输入下的稳健性的方法,该方法包括通过引入人造干扰词破坏自然性来抵制噪声,并通过提供更好的上下文表示来防止噪声传播。在中英文翻译和法英文翻译任务上的实验证明本方法能够提高新闻和社交媒体文本的稳健性,并且在社交媒体文本上的进一步微调实验表明该方法可以收敛到更高的位置并提供更好的适应性。
Apr, 2021
通过对多语种机器翻译模型和大型语言模型在噪声输入情境下的实验研究,我们发现这些模型相比以往模型对各种噪声更加稳健,尤其是在处理干净数据情况下表现相似的情况下。我们还展示了这种趋势在社交媒体翻译实验中同样存在,同时分析了源文本校正技术在减轻噪声影响方面的应用情况。综上所述,我们展示了对于多种类型噪声的稳健性有所增强。
Mar, 2024