本文提出了一种基于多任务学习的数据增强方法,通过将目标句子的顺序进行颠倒等操作,产生不流畅的目标句子,作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明,该方法相对于以扩展经验数据分布为目标的传统数据增强方法,可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。
Sep, 2021
通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023
本文研究评估了三种不同的微调方法在七种不同的自然语言处理任务中的效果,结果表明数据增强可以有效提高微调后的模型性能,特别是在少样本学习任务中,持续的预训练可以将性能提高 10% 以上。
Jun, 2023
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
提出了一种基于重要性感知数据增强算法的文档级神经机器翻译方法,通过估计隐藏状态和训练梯度的法线来增加训练数据,并在常用文档级神经机器翻译基准数据集上获得了显著优于强基线模型和其他数据增强方法的结果,包括句子级和文档级 BLEU。
Jan, 2024
提出了一种名为 SegAugment 的数据增强方法,通过音频分割系统重新分割每个文档的语音,以获取多个目标文本,并得到多个和不同的句子级视图,实现了语音翻译中的数据增强,平均 BLEU 分数增加了 2.2 个点,并且在低资源场景下增加了 4.7 个 BLEU 点。
Dec, 2022
介绍了我们在 WMT'22 翻译建议共享任务中提交的系统,该系统基于多种翻译架构的集合,并使用三种策略构建合成数据以补偿监督数据的缺乏,并引入多阶段预训练策略,并在英德和英汉双向任务中排名第二和第三。
Oct, 2022
本文提出了一种新的句法感知数据增强策略,使用输入句子的依存句法树来确定每个句子中单词的选择概率,以有效增强神经机器翻译的翻译性能。实验表明,所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。
Apr, 2020
本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性,提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。
Oct, 2019
本文提出了一种基于词典的数据增强方法,用于跨领域神经机器翻译。通过生成大规模的伪 IND 平行语料库,可以增强一般域训练的基线 NMT 模型,实验结果表明,DDA 增强的 NMT 模型表现出一致显著的改进,胜过基线模型 3.75-11.53 BLEU。