本文提出了一种新颖的神经机器翻译数据增强方法,即通过语言模型提供的词汇分布来增强句子中的特定单词,从而比之前的增强方法更好地捕捉上下文语义信息。实验结果表明该方法在小规模和大规模机器翻译数据集上都优于强基线。
May, 2019
通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023
本研究提出一种数据增强方法来处理长句子翻译问题,结果显示这一方法不仅提高了翻译质量,而且与回译方法的结合进一步改善了翻译质量。
Apr, 2021
本文提出了一种新的方式用于神经机器翻译的模型训练,通过对多个具有相同语义的源语言句子进行明确抓取通用的语义信息以提高模型性能。在各类翻译任务的实验中,本方法表现显著优于现有方法。
Oct, 2020
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
该论文提出了一种新的数据增强模型 Continuous Semantic Augmentation (CsaNMT), 该模型可以使神经机器翻译模型在低资源环境中表现出更好的泛化性能和更高的翻译质量。通过丰富训练数据,提高了机器翻译的性能,并在多个语言翻译任务中取得了大幅度的提升。
Apr, 2022
我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略,该方法在 14 种语言中(28 个英语 <->X 对)的实验中展示了性能的一致提升。
Feb, 2024
本文提出了一种新的神经机器翻译对抗性数据增强方法,称之为 AdvAug,使用虚拟句子的嵌入来训练 NMT 模型,通过实验证明其取得了显著的效果提升。
Jun, 2020
本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性,提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。
Oct, 2019
本研究提出了一种基于依赖解析器的隐式语法表示方法,通过使用中间隐藏的依赖解析器表示来增强基础神经机器翻译模型,可以在中英文和英越翻译任务的基准数据集上显著提高 BLEU 打分表现,并超过了显式树状 RNN 和线性化方法。