基于语法的命名实体识别数据增强

Aug, 2022

基于语法的命名实体识别数据增强

Syntax-driven Data Augmentation for Named Entity Recognition

Arie Pratama Sutiono, Gus Hahn-Powell

TL;DR本研究探讨了在低资源条件下如何使用数据增强技术来提高命名实体识别任务的性能，并比较了简单的掩码语言模型替换和基于句法树变异的数据增强方法，以保持增强后句子的语言连贯性。

Abstract

In low resource settings, data augmentation strategies are commonly leveraged to improve performance. Numerous approaches have attempted document-level augmentation (e.g., text classification), but few studies have explored token-level augmentation. Performed naively, →

data augmentation named entity recognition low-resource settings masked language model replacement constituency tree mutations

发现论文，激发创造

命名实体识别简单数据增强分析

本研究针对基于标记序列的命名实体识别任务，设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集（i2b2-2010 和 MaSciP）上进行实验，我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能，尤其是对于小训练集的情况。

Oct, 2020

DAGA: 一种基于生成方法的数据增强技术，用于低资源标注任务

本研究提出了一种基于语言模型的数据增强方法，可以生成高质量的合成数据以提高机器学习性能，在监督和半监督学习环境下，实验结果表明，在给定较少的训练数据的情况下，该方法可以始终优于基准方法。

Nov, 2020

面向低资源语言的依存树变形数据增强

该研究提供基于依赖树的文本增强技术，包括剪裁和旋转，用于增加低资源语言数据集的大小，在词性标注任务中提高了大多数语言的精度。

Mar, 2019

MELM: 低资源命名实体识别的掩码实体语言建模数据增强

使用 MELM 作为一种新的数据增强框架，通过显式条件化于标签来预测掩码实体标记，从而为低资源 NER 生成高质量的增强数据，并通过与混合代码结合进一步提高了 MELM 的有效性，在单语，跨语言和多语言 NER 方面均取得了实验结果的显著改进。

Aug, 2021

神经机器翻译的句法感知数据增强

本文提出了一种新的句法感知数据增强策略，使用输入句子的依存句法树来确定每个句子中单词的选择概率，以有效增强神经机器翻译的翻译性能。实验表明，所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。

Apr, 2020

LLM-DA: 大型语言模型在少样本命名实体识别中的数据增强

提出了 $LLM-DA$，这是基于大型语言模型的一种新的数据增强技术，适用于少样本的命名实体识别任务，并实验证明该方法在有限数据情况下能有效提升模型性能。

Feb, 2024

使用回译的数据增强方法应用于低资源的命名实体识别

本文提出了基于回译技术的数据增强策略，用于命名实体识别任务的低资源域，实验结果表明该方法在材料科学和生物医学领域中均表现出了高效的性能。

Aug, 2021

探究基于掩码的语言模型数据生成

本文旨在探讨基于掩码语言模型的数据增强方法在自然语言处理领域的广泛应用及提高模型性能的有效性，以及近期对该模型在生成人工扩充数据方面的应用及实验结果。

Jun, 2023

概率语言知识与单词级别文本增强

本文研究了基于标记级别的文本增强及概率语言知识在基于语言学评估的情境下的作用。在中英文的问题匹配分类任务中，对五种标记级别的文本增强技术进行了全面细致的实验，发现它们的效果普遍较差且概率语言知识的作用极小。

Jun, 2023

神经 NLP 数据增强

本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展，着重介绍了基于神经网络和变换器的方法，讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。

Feb, 2023