低资源神经机器翻译中数据增强的再思考：多任务学习方法

EMNLPSep, 2021

低资源神经机器翻译中数据增强的再思考：多任务学习方法

Rethinking Data Augmentation for Low-Resource Neural Machine Translation: A Multi-Task Learning Approach

Víctor M. Sánchez-Cartagena, Miquel Esplà-Gomis, Juan Antonio Pérez-Ortiz, Felipe Sánchez-Martínez

TL;DR本文提出了一种基于多任务学习的数据增强方法，通过将目标句子的顺序进行颠倒等操作，产生不流畅的目标句子，作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明，该方法相对于以扩展经验数据分布为目标的传统数据增强方法，可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。

Abstract

In the context of neural machine translation, data augmentation (DA) techniques may be used for generating additional training samples whe

neural machine translation data augmentation multi-task learning training low-resource

发现论文，激发创造

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

面向文档级机器翻译的目标端增强

提出了目标端数据增强的数据稀疏性问题解决方法，通过生成多个潜在翻译来训练机器翻译模型，从而减少数据稀疏性的风险并提高翻译性能。

May, 2023

重新思考文本数据增强的有效性：一个实证分析

本文研究评估了三种不同的微调方法在七种不同的自然语言处理任务中的效果，结果表明数据增强可以有效提高微调后的模型性能，特别是在少样本学习任务中，持续的预训练可以将性能提高 10% 以上。

Jun, 2023

对话人工智能的数据增强

对话系统中的数据扩充方法提供了关键的方法来解决数据稀缺问题，并探讨了对话系统中的生成、评估等任务中的挑战与未来方向。

Sep, 2023

自然语言处理中的数据增强方法综述

本文综述了数据增强的三个类别：释义、加噪和采样，以及在 NLP 中的应用和挑战。

Oct, 2021

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

文本增强技术在低资源机器翻译中的应用：斯瓦希里语案例研究

本研究旨在探讨将文本数据增强技术应用于低资源机器翻译的影响，研究表明在针对英斯瓦西里（En-Sw）数据集进行神经机器翻译时，文本分类任务中常用的三种数据增强技术（同义词替换、随机插入和上下文数据增强）均可提高系统性能，尤其是上下文数据增强技术。

Jun, 2023

基于词典的跨领域神经机器翻译数据增强

本文提出了一种基于词典的数据增强方法，用于跨领域神经机器翻译。通过生成大规模的伪 IND 平行语料库，可以增强一般域训练的基线 NMT 模型，实验结果表明，DDA 增强的 NMT 模型表现出一致显著的改进，胜过基线模型 3.75-11.53 BLEU。

Apr, 2020

DAGA: 一种基于生成方法的数据增强技术，用于低资源标注任务

本研究提出了一种基于语言模型的数据增强方法，可以生成高质量的合成数据以提高机器学习性能，在监督和半监督学习环境下，实验结果表明，在给定较少的训练数据的情况下，该方法可以始终优于基准方法。

Nov, 2020

低资源翻译的广义数据增强

本论文提出了一种在低资源机器翻译中进行数据增强的通用框架，该框架不仅使用目标端单语数据，还通过相关高资源语言进行桥接，通过在两个步骤中使用词典和修改无监督机器翻译框架，将高资源数据转换为低资源语言，实验证明该方法在极低的资源条件下，与受监督背景转换基线相比，可将翻译质量提高 1.5 到 8 个 BLEU 点。

Jun, 2019