AUGVIC:利用双语邻域推进低资源 NMT
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
本文提出了一种新的神经机器翻译对抗性数据增强方法,称之为 AdvAug,使用虚拟句子的嵌入来训练 NMT 模型,通过实验证明其取得了显著的效果提升。
Jun, 2020
通过数据增强和持续的预训练,我们改善了跨语言辱骂语言检测的领域适应。数据增强策略对多领域和多语言环境下的零样本跨语言辱骂语言检测具有显著提升作用。然而,领域适应会有利于辱骂文本类的检测(降低误报),但同时也会降低辱骂语言检测模型的精确性。
Nov, 2023
本研究旨在探讨将文本数据增强技术应用于低资源机器翻译的影响,研究表明在针对英斯瓦西里(En-Sw)数据集进行神经机器翻译时,文本分类任务中常用的三种数据增强技术(同义词替换、随机插入和上下文数据增强)均可提高系统性能,尤其是上下文数据增强技术。
Jun, 2023
本研究提出了一种基于双语词典的数据增强技术,使得机器翻译模型能够扩展词汇表而不会影响低资源环境下的合成句子的质量,我们的方法在性能上表现出可观的改进。
Apr, 2020
本文探讨使用双语词汇表在网络爬取的文本训练数据上进行无监督机器翻译的有效性,通过词汇数据增强,我们证明了其对于提升无监督翻译成果的重要性,并开源了 GATITOS,这是一个在 26 种低资源语言中表现最好的多语种词汇表。
Mar, 2023
本文主要研究神经机器翻译在低资源条件下的表现,提出通过对目标语句子进行回译生成人工数据的方法,并以提取 Tigrinya 语言为案例,研究了多种回译方法,最终发现及时利用中间语言进行回译是在低资源条件下提高性能的最有效方法。
Mar, 2021
本文提出一种简单但有效的方法,即将目标语句重新排序以匹配源语序,并将其作为另外一种训练时的监督信号,从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。
Aug, 2019
我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略,该方法在 14 种语言中(28 个英语 <->X 对)的实验中展示了性能的一致提升。
Feb, 2024