低资源神经机器翻译的数据增强
本研究旨在探讨将文本数据增强技术应用于低资源机器翻译的影响,研究表明在针对英斯瓦西里(En-Sw)数据集进行神经机器翻译时,文本分类任务中常用的三种数据增强技术(同义词替换、随机插入和上下文数据增强)均可提高系统性能,尤其是上下文数据增强技术。
Jun, 2023
本文提出了基于回译技术的数据增强策略,用于命名实体识别任务的低资源域,实验结果表明该方法在材料科学和生物医学领域中均表现出了高效的性能。
Aug, 2021
通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023
本文提出了一种基于多任务学习的数据增强方法,通过将目标句子的顺序进行颠倒等操作,产生不流畅的目标句子,作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明,该方法相对于以扩展经验数据分布为目标的传统数据增强方法,可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。
Sep, 2021
本论文提出了一种在低资源机器翻译中进行数据增强的通用框架,该框架不仅使用目标端单语数据,还通过相关高资源语言进行桥接,通过在两个步骤中使用词典和修改无监督机器翻译框架,将高资源数据转换为低资源语言,实验证明该方法在极低的资源条件下,与受监督背景转换基线相比,可将翻译质量提高 1.5 到 8 个 BLEU 点。
Jun, 2019
本研究提出了一种基于双语词典的数据增强技术,使得机器翻译模型能够扩展词汇表而不会影响低资源环境下的合成句子的质量,我们的方法在性能上表现出可观的改进。
Apr, 2020
即使有深度学习和大规模语言建模的最新发展,对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略,依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划,并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分(从英语到乌克兰语)的改进。
Oct, 2023
本文提出一种简单但有效的方法,即将目标语句重新排序以匹配源语序,并将其作为另外一种训练时的监督信号,从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。
Aug, 2019
本文主要研究神经机器翻译在低资源条件下的表现,提出通过对目标语句子进行回译生成人工数据的方法,并以提取 Tigrinya 语言为案例,研究了多种回译方法,最终发现及时利用中间语言进行回译是在低资源条件下提高性能的最有效方法。
Mar, 2021
本文介绍一种半监督的方法来解决低资源语言机器翻译的问题,通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量,将交叉熵损失和 KL 散度相结合,特别是通过伪目标句子实现无监督训练,实验证明该方法可以显著提高 NMT 基线性能
Apr, 2023