AUGVIC：利用双语邻域推进低资源 NMT

ACLJun, 2021

AUGVIC：利用双语邻域推进低资源 NMT

AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT

Tasnim Mohiuddin, M Saiful Bari, Shafiq Joty

TL;DR提出了 AUGVIC 框架，用于低资源 NMT 中的数据增强，通过对给定的双语数据的 vicinal sample 进行扩充，广泛的实验证明其与使用额外的单语数据的传统回译方法相当。

Abstract

The success of neural machine translation (NMT) largely depends on the availability of large bitext training corpora. Due to the lack of such large corpora in low-resource language pairs, NMT systems often exhibit poor performance. Extra relevant →

neural machine translation low-resource languages data augmentation back-translation monolingual data

发现论文，激发创造

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

AdvAug: 神经机器翻译的鲁棒对抗性增强

本文提出了一种新的神经机器翻译对抗性数据增强方法，称之为 AdvAug，使用虚拟句子的嵌入来训练 NMT 模型，通过实验证明其取得了显著的效果提升。

Jun, 2020

滨近风险最小化在滥用语言检测中的少样本跨语言转移

通过数据增强和持续的预训练，我们改善了跨语言辱骂语言检测的领域适应。数据增强策略对多领域和多语言环境下的零样本跨语言辱骂语言检测具有显著提升作用。然而，领域适应会有利于辱骂文本类的检测（降低误报），但同时也会降低辱骂语言检测模型的精确性。

Nov, 2023

文本增强技术在低资源机器翻译中的应用：斯瓦希里语案例研究

本研究旨在探讨将文本数据增强技术应用于低资源机器翻译的影响，研究表明在针对英斯瓦西里（En-Sw）数据集进行神经机器翻译时，文本分类任务中常用的三种数据增强技术（同义词替换、随机插入和上下文数据增强）均可提高系统性能，尤其是上下文数据增强技术。

Jun, 2023

利用双语词典进行低资源半监督神经机器翻译

本研究提出了一种基于双语词典的数据增强技术，使得机器翻译模型能够扩展词汇表而不会影响低资源环境下的合成句子的质量，我们的方法在性能上表现出可观的改进。

Apr, 2020

Bilex Rx：大规模多语机器翻译的词汇数据增强

本文探讨使用双语词汇表在网络爬取的文本训练数据上进行无监督机器翻译的有效性，通过词汇数据增强，我们证明了其对于提升无监督翻译成果的重要性，并开源了 GATITOS，这是一个在 26 种低资源语言中表现最好的多语种词汇表。

Mar, 2023

提高英语到提格里尼亚语翻译质量的数据增强技术探索

本文主要研究神经机器翻译在低资源条件下的表现，提出通过对目标语句子进行回译生成人工数据的方法，并以提取 Tigrinya 语言为案例，研究了多种回译方法，最终发现及时利用中间语言进行回译是在低资源条件下提高性能的最有效方法。

Mar, 2021

自训练上下文嵌入的无监督双语挖掘与翻译

采用无监督学习方法使用多语言 BERT 创建伪平行语料库以提高机器翻译性能，并在不同任务中获得显著提高。

Oct, 2020

低资源机器翻译中的语法差异处理

本文提出一种简单但有效的方法，即将目标语句重新排序以匹配源语序，并将其作为另外一种训练时的监督信号，从而在模拟低资源日语 - 英语和真实低资源维吾尔 - 英语语种中获得显着改进。

Aug, 2019

基于词典的形态学感知数据增强技术用于机器翻译低资源语种

我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略，该方法在 14 种语言中（28 个英语 <->X 对）的实验中展示了性能的一致提升。

Feb, 2024