神经机器翻译的句法感知数据增强

Apr, 2020

神经机器翻译的句法感知数据增强

Syntax-aware Data Augmentation for Neural Machine Translation

Sufeng Duan, Hai Zhao, Dongdong Zhang, Rui Wang

TL;DR本文提出了一种新的句法感知数据增强策略，使用输入句子的依存句法树来确定每个句子中单词的选择概率，以有效增强神经机器翻译的翻译性能。实验表明，所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。

Abstract

data augmentation is an effective performance enhancement in neural machine translation (NMT) by generating additional bilingual data. In this paper, we propose a novel data augmentation enhancement strategy for

data augmentation neural machine translation dependency parse tree syntax-aware translation performance

发现论文，激发创造

神经机器翻译的软上下文数据增强

本文提出了一种新颖的神经机器翻译数据增强方法，即通过语言模型提供的词汇分布来增强句子中的特定单词，从而比之前的增强方法更好地捕捉上下文语义信息。实验结果表明该方法在小规模和大规模机器翻译数据集上都优于强基线。

May, 2019

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

神经机器翻译数据增强的句子串联方法

本研究提出一种数据增强方法来处理长句子翻译问题，结果显示这一方法不仅提高了翻译质量，而且与回译方法的结合进一步改善了翻译质量。

Apr, 2021

神经机器翻译的不确定性感知语义增强

本文提出了一种新的方式用于神经机器翻译的模型训练，通过对多个具有相同语义的源语言句子进行明确抓取通用的语义信息以提高模型性能。在各类翻译任务的实验中，本方法表现显著优于现有方法。

Oct, 2020

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

学习扩展泛化：面向神经机器翻译的连续语义增强

该论文提出了一种新的数据增强模型 Continuous Semantic Augmentation (CsaNMT), 该模型可以使神经机器翻译模型在低资源环境中表现出更好的泛化性能和更高的翻译质量。通过丰富训练数据，提高了机器翻译的性能，并在多个语言翻译任务中取得了大幅度的提升。

Apr, 2022

基于词典的形态学感知数据增强技术用于机器翻译低资源语种

我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略，该方法在 14 种语言中（28 个英语 <->X 对）的实验中展示了性能的一致提升。

Feb, 2024

AdvAug: 神经机器翻译的鲁棒对抗性增强

本文提出了一种新的神经机器翻译对抗性数据增强方法，称之为 AdvAug，使用虚拟句子的嵌入来训练 NMT 模型，通过实验证明其取得了显著的效果提升。

Jun, 2020

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019

带有句法感知词表示的句法增强神经机器翻译

本研究提出了一种基于依赖解析器的隐式语法表示方法，通过使用中间隐藏的依赖解析器表示来增强基础神经机器翻译模型，可以在中英文和英越翻译任务的基准数据集上显著提高 BLEU 打分表现，并超过了显式树状 RNN 和线性化方法。

May, 2019