面向低资源语言的依存树变形数据增强

Mar, 2019

面向低资源语言的依存树变形数据增强

Data Augmentation via Dependency Tree Morphing for Low-Resource Languages

Gözde Gül Şahin, Mark Steedman

TL;DR该研究提供基于依赖树的文本增强技术，包括剪裁和旋转，用于增加低资源语言数据集的大小，在词性标注任务中提高了大多数语言的精度。

Abstract

neural nlp systems achieve high scores in the presence of sizable training dataset. Lack of such datasets leads to poor system performances in the case low-resource languages. We present two simple →

neural nlp systems text augmentation techniques dependency trees low-resource languages part-of-speech tagging

发现论文，激发创造

依存子树交换增强机器翻译数据

本文介绍了一种适用于机器翻译的数据增强的通用框架，该框架通过依赖子树交换进行数据增强，使用依赖解析树中的相应子树从源文本和目标文本中提取并交换，从而创建扩充样本，然后具有过滤、相似度检查和语义一致性检查等额外的方法和准则，实验证明该方法在 BLEU 分数上实现了一致的提高。

Jul, 2023

TreeSwap: 通过依存子树交换的数据增强方法用于机器翻译

利用依赖分析树，在资源有限的数据集上进行数据增强，通过交换句子的对象和主语生成新句子，并在神经机器翻译中取得了持续的改进。

Nov, 2023

在真正的低资源语言上，对于低资源依赖分析的方法进行系统比较

本文研究在少量训练数据的情况下，如何通过数据增强、跨语言训练和转写等策略提高处理低资源语言的分析器性能。在三种语言的实验中，发现数据增强和跨语言训练都能提高性能，而将高资源语料库中的字母转写成共享的拼写规则也很有帮助。

Sep, 2019

基于语法的命名实体识别数据增强

本研究探讨了在低资源条件下如何使用数据增强技术来提高命名实体识别任务的性能，并比较了简单的掩码语言模型替换和基于句法树变异的数据增强方法，以保持增强后句子的语言连贯性。

Aug, 2022

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

跨语言屈折变形作为分析的数据增广方法

提出一种基于形态学的低资源依存解析方法，在目标低资源语言中训练形态变化器，并将其应用于相关的富资源树库以创建类似于目标低资源语言的跨语言折叠树库。使用这样的折叠树库在零（在折叠的树库上训练）和少量样本（在折叠和目标语言树库上训练）设置中训练解析器。结果表明该方法有时会改善基线，但不是一致的。

May, 2022

使用回译的数据增强方法应用于低资源的命名实体识别

本文提出了基于回译技术的数据增强策略，用于命名实体识别任务的低资源域，实验结果表明该方法在材料科学和生物医学领域中均表现出了高效的性能。

Aug, 2021

DAGA: 一种基于生成方法的数据增强技术，用于低资源标注任务

本研究提出了一种基于语言模型的数据增强方法，可以生成高质量的合成数据以提高机器学习性能，在监督和半监督学习环境下，实验结果表明，在给定较少的训练数据的情况下，该方法可以始终优于基准方法。

Nov, 2020

神经机器翻译的句法感知数据增强

本文提出了一种新的句法感知数据增强策略，使用输入句子的依存句法树来确定每个句子中单词的选择概率，以有效增强神经机器翻译的翻译性能。实验表明，所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。

Apr, 2020

文本增强技术在低资源机器翻译中的应用：斯瓦希里语案例研究

本研究旨在探讨将文本数据增强技术应用于低资源机器翻译的影响，研究表明在针对英斯瓦西里（En-Sw）数据集进行神经机器翻译时，文本分类任务中常用的三种数据增强技术（同义词替换、随机插入和上下文数据增强）均可提高系统性能，尤其是上下文数据增强技术。

Jun, 2023