本文提出了一种新颖的 NMT 数据增强方法 ——AdMix,将弱离散噪声引入原始句对,生成新的合成训练数据,并将其与原始样本软混合,实验证明,该方法可显著提高翻译效果,特别是与 back-translation 等方法联合使用时,改进效果进一步增强。
May, 2022
本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性,提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。
Oct, 2019
本文研究一种新的神经机器翻译学习范式,即采用对抗训练模型进行最小化差异的方式来指导模型学习,此模型被命名为 Adversarial-NMT。实验结果表明,Adversarial-NMT 性能显著高于强基线模型,并能够实现更高质量的翻译。
Apr, 2017
本文提出了一种新的句法感知数据增强策略,使用输入句子的依存句法树来确定每个句子中单词的选择概率,以有效增强神经机器翻译的翻译性能。实验表明,所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。
Apr, 2020
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
提出了一种改善神经机器翻译模型鲁棒性的方法,该方法包含两个部分:通过对抗性源样本攻击翻译模型,以及通过对抗性目标输入来防御翻译模型,以提高其对抗性源输入的鲁棒性,并通过梯度下降法生成对抗性输入来提高其性能。在中英和英德翻译任务的实验结果表明,在标准的干净基准测试中,我们的方法可以取得显著的改进($2.8$ 和 $1.6$ BLEU 分数),同时在噪声数据上表现出更高的鲁棒性。
Jun, 2019
本文介绍了一种新的对神经机器翻译(NMT)模型的有针对性对抗攻击方法,目的是插入一个预定义的关键词到对抗性翻译中,同时保持源域中原始句子和扰动句子之间的相似性。文章提出了包括对抗损失项和相似性损失项的优化问题,并使用嵌入空间中的梯度投影来获得对抗性句子。实验结果表明,相比于 Seq2Sick 方法,本攻击方法在成功率和翻译质量降低方面表现更好,攻击成功率超过 75%,同时原始句子和扰动后的句子之间的相似性得以保持。
Mar, 2023
本文提出了一种新颖的神经机器翻译数据增强方法,即通过语言模型提供的词汇分布来增强句子中的特定单词,从而比之前的增强方法更好地捕捉上下文语义信息。实验结果表明该方法在小规模和大规模机器翻译数据集上都优于强基线。
May, 2019
通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023
本文提出采用对抗性稳定性训练来提高神经机器翻译 (NMT) 模型的鲁棒性,通过使编码器和解码器在输入和其扰动版本的情况下行为相似,进而提高模型的容错性。在汉英、英德和英法翻译任务中的实验结果表明,该方法不仅可以显著提高强 NMT 系统的翻译品质,而且可以增强 NMT 模型的鲁棒性。
May, 2018