TreeSwap: 通过依存子树交换的数据增强方法用于机器翻译

Nov, 2023

TreeSwap: 通过依存子树交换的数据增强方法用于机器翻译

TreeSwap: Data Augmentation for Machine Translation via Dependency Subtree Swapping

Attila Nagy, Dorina Lakatos, Botond Barta, Judit Ács

TL;DR利用依赖分析树，在资源有限的数据集上进行数据增强，通过交换句子的对象和主语生成新句子，并在神经机器翻译中取得了持续的改进。

Abstract

data augmentation methods for neural machine translation are particularly useful when limited amount of training data is available, which is often the case when dealing with →

data augmentation neural machine translation low-resource languages treeswap dependency parse trees

发现论文，激发创造

依存子树交换增强机器翻译数据

本文介绍了一种适用于机器翻译的数据增强的通用框架，该框架通过依赖子树交换进行数据增强，使用依赖解析树中的相应子树从源文本和目标文本中提取并交换，从而创建扩充样本，然后具有过滤、相似度检查和语义一致性检查等额外的方法和准则，实验证明该方法在 BLEU 分数上实现了一致的提高。

Jul, 2023

面向低资源语言的依存树变形数据增强

该研究提供基于依赖树的文本增强技术，包括剪裁和旋转，用于增加低资源语言数据集的大小，在词性标注任务中提高了大多数语言的精度。

Mar, 2019

神经机器翻译的句法感知数据增强

本文提出了一种新的句法感知数据增强策略，使用输入句子的依存句法树来确定每个句子中单词的选择概率，以有效增强神经机器翻译的翻译性能。实验表明，所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。

Apr, 2020

文本增强技术在低资源机器翻译中的应用：斯瓦希里语案例研究

本研究旨在探讨将文本数据增强技术应用于低资源机器翻译的影响，研究表明在针对英斯瓦西里（En-Sw）数据集进行神经机器翻译时，文本分类任务中常用的三种数据增强技术（同义词替换、随机插入和上下文数据增强）均可提高系统性能，尤其是上下文数据增强技术。

Jun, 2023

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

依存词对利用于统计机器翻译中的重新排序：交换还是不交换？

本文介绍一种利用基于依存词对的稀疏特征的新型重排序方法，该方法在汉英翻译实验中取得了 1.21 BLEU 点的显著提高。

Aug, 2016

SwitchOut：神经机器翻译的高效数据增强算法

本文针对神经机器翻译等文本任务的数据增强方法进行了研究。我们将数据增强策略的设计形式化为一个优化问题，并推导出一种通用的解析解。该方法不仅综合了一些现有的增强方案，而且还引导出一种极为简单的数据增强策略：随机地用其对应的词汇库中的其他单词替换源语句和目标语句中的单词。我们将这个方法命名为 SwitchOut。对三个不同规模的翻译数据集进行实验表明，SwitchOut 可以始终改进约 0.5 BLEU，达到比强大的替代方案如单词丢失（Sennrich et al.，2016a）更好或相当的性能。文中还包括了代码以实现该方法。

Aug, 2018

无监督源语言重排序的低资源句法迁移

本文针对源语言和目标语言单词顺序的不同问题，提出了一种基于 “圣经” 语料库和跨语言词表示的依存句法跨语言迁移方法。该方法在训练前改变源语言语料的顺序，使得在欧洲语系以外的语言中达到更高的精度。在多语言数据集上，该方法在 68 个树库（38 种语言）的实验中表现良好，并在 12 种非欧洲语言的 16 个树库中实现了 3.3％的平均 UAS 绝对精度提高。

Mar, 2019

TreeMix：面向自然语言理解的基于组成结构的数据增强

介绍了一种基于语言组成性的自然语言理解数据增强方法 - TreeMix，在 NLP 的分类任务上表现比现有的方法更好。

May, 2022

基于依赖关系的神经重排模型用于统计机器翻译

本文介绍了一种新的重排序方法，利用神经网络和基于依存性的嵌入来预测两个源单词之间的依存关系，以确定翻译的单词顺序，实现了在中英翻译中统计显著的 0.57 BLEU 分数的提高。

Feb, 2017