该研究提出了一种简单的数据增强方法 SeqMix,用于鼓励神经模型针对序列问题的组合行为,该方法可以使神经网络捕获自然语言中的组合特征,旨在提高机器翻译和语义分析等任务的性能。
Nov, 2020
本研究探讨了在低资源条件下如何使用数据增强技术来提高命名实体识别任务的性能,并比较了简单的掩码语言模型替换和基于句法树变异的数据增强方法,以保持增强后句子的语言连贯性。
Aug, 2022
本文提出了一种新的句法感知数据增强策略,使用输入句子的依存句法树来确定每个句子中单词的选择概率,以有效增强神经机器翻译的翻译性能。实验表明,所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。
Apr, 2020
使用子树替换进行合成数据增强可显著提高模型性能,特别是在 SCAN 和 GeoQuery 上,同时在 GeoQuery 的组成分离上达到了新的 SOTA。
May, 2022
该研究提供基于依赖树的文本增强技术,包括剪裁和旋转,用于增加低资源语言数据集的大小,在词性标注任务中提高了大多数语言的精度。
Mar, 2019
本文尝试将最新的数据增强技术 Mixup 应用于自然语言处理领域,特别是在与 NLP 相关的 transformer-based 学习模型中。实验结果表明,Mixup 在预训练的语言模型中是一个独立于领域的数据增强技术,能够显著提高其性能。
Oct, 2020
本文提出了一种新颖的 NMT 数据增强方法 ——AdMix,将弱离散噪声引入原始句对,生成新的合成训练数据,并将其与原始样本软混合,实验证明,该方法可显著提高翻译效果,特别是与 back-translation 等方法联合使用时,改进效果进一步增强。
本论文探讨了元学习在传递相关任务的知识方面的研究方向,发现在低任务多样性下,最先进的数据增强方法会恶化过拟合问题;为此,提出了一种称为 TaskMix 的简单方法以缓解过拟合问题和改善性能。
Sep, 2022
本文提出了一种简单的数据增强协议,旨在为条件和无条件序列模型提供组合归纳偏置。经过测试,该协议可以应用于神经序列到序列模型和 n-gram 语言模型,使得错误率和困惑度均有所降低。
Apr, 2019
本文提出了 Mixup 数据增强方法在句子分类中的应用策略,并在多个基准数据集上进行了实验验证,结果表明该技术是一种有效的、领域无关的数据增强方法,可使 CNN 和 LSTM 模型的预测准确性显著提高。
May, 2019