TreeSwap: 通过依存子树交换的数据增强方法用于机器翻译
本文介绍了一种适用于机器翻译的数据增强的通用框架,该框架通过依赖子树交换进行数据增强,使用依赖解析树中的相应子树从源文本和目标文本中提取并交换,从而创建扩充样本,然后具有过滤、相似度检查和语义一致性检查等额外的方法和准则,实验证明该方法在 BLEU 分数上实现了一致的提高。
Jul, 2023
本文提出了一种新的句法感知数据增强策略,使用输入句子的依存句法树来确定每个句子中单词的选择概率,以有效增强神经机器翻译的翻译性能。实验表明,所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。
Apr, 2020
本研究旨在探讨将文本数据增强技术应用于低资源机器翻译的影响,研究表明在针对英斯瓦西里(En-Sw)数据集进行神经机器翻译时,文本分类任务中常用的三种数据增强技术(同义词替换、随机插入和上下文数据增强)均可提高系统性能,尤其是上下文数据增强技术。
Jun, 2023
本研究提出了一种以数据增强为基础的方法,针对低频词汇在合成的新语境中生成新的句子对,以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示,相对于基准和回译方法,我们的方法能够提高翻译质量,最高可提高 2.9 BLEU 分数。
May, 2017
本文针对神经机器翻译等文本任务的数据增强方法进行了研究。我们将数据增强策略的设计形式化为一个优化问题,并推导出一种通用的解析解。该方法不仅综合了一些现有的增强方案,而且还引导出一种极为简单的数据增强策略:随机地用其对应的词汇库中的其他单词替换源语句和目标语句中的单词。我们将这个方法命名为 SwitchOut。对三个不同规模的翻译数据集进行实验表明,SwitchOut 可以始终改进约 0.5 BLEU,达到比强大的替代方案如单词丢失(Sennrich et al.,2016a)更好或相当的性能。文中还包括了代码以实现该方法。
Aug, 2018
本文针对源语言和目标语言单词顺序的不同问题,提出了一种基于 “圣经” 语料库和跨语言词表示的依存句法跨语言迁移方法。该方法在训练前改变源语言语料的顺序,使得在欧洲语系以外的语言中达到更高的精度。在多语言数据集上,该方法在 68 个树库(38 种语言)的实验中表现良好,并在 12 种非欧洲语言的 16 个树库中实现了 3.3%的平均 UAS 绝对精度提高。
Mar, 2019
本文介绍了一种新的重排序方法,利用神经网络和基于依存性的嵌入来预测两个源单词之间的依存关系,以确定翻译的单词顺序,实现了在中英翻译中统计显著的 0.57 BLEU 分数的提高。
Feb, 2017