基于局部可加性的半监督 NER 数据增强

EMNLPOct, 2020

基于局部可加性的半监督 NER 数据增强

Local Additivity Based Data Augmentation for Semi-supervised NER

Jiaao Chen, Zhenghui Wang, Ran Tian, Zichao Yang, Diyi Yang

TL;DR该研究提出了一种基于数据增广的、半监督命名实体识别模型。该模型通过对序列进行插值来虚拟出有标注数据，提高了实体和上下文学习的效果。研究还扩展了该模型，为无标注数据设计了一种一致性损失，提高了该模型在半监督条件下的性能。

Abstract

named entity recognition (NER) is one of the first stages in deep language understanding yet current NER models heavily rely on human-annotated data. In this work, to alleviate the dependence on labeled data, we propose a Local Additivity based →

named entity recognition data augmentation semi-supervised learning interpolating consistency loss

发现论文，激发创造

LLM-DA: 大型语言模型在少样本命名实体识别中的数据增强

提出了 $LLM-DA$，这是基于大型语言模型的一种新的数据增强技术，适用于少样本的命名实体识别任务，并实验证明该方法在有限数据情况下能有效提升模型性能。

Feb, 2024

DAGA: 一种基于生成方法的数据增强技术，用于低资源标注任务

本研究提出了一种基于语言模型的数据增强方法，可以生成高质量的合成数据以提高机器学习性能，在监督和半监督学习环境下，实验结果表明，在给定较少的训练数据的情况下，该方法可以始终优于基准方法。

Nov, 2020

用于低资源领域任务的检索增强数据增强

提出了一种新的方法，通过将其他数据集中的丰富示例与给定的训练数据结合起来，通过在原始和检索的样本之间的上下文信息中促使大型语言模型生成新的样本，以增加训练数据的多样性和相关性，在低资源环境中实现了比现有大型语言模型数据增强基线更好的性能。

Feb, 2024

EnTDA: 基于实体到文本的数据增强方法，用于命名实体识别任务

提出了一种名为 EnTDA 的数据增强方法，通过添加、删除、替换和交换实体来打破实体间的依赖关系，并采用多样性 beam search 策略增加数据的多样性，以提高在 13 个 NER 数据集上的表现。

Oct, 2022

基于提示排序的数据增强增强少样本命名实体识别

本文提出了一种名为基于提示排序的数据增强方法（PODA），使用于预训练语言模型在低资源环境下执行少样本命名实体识别任务，PODA 方法通过提供不按来源序列严格排序但合理多样化的目标实体序列来训练模型，可以加强在各种 NER 任务中的效果表现。

May, 2023

数据不足？深度学习来救援！

通过现有的自然语言处理技术和文本生成能力，我们提出了一种新的数据增强方法，即基于语言模型的数据增强 (LAMBADA)，它可以在有限标注数据的情况下用强大的预训练神经网络模型合成新的有标注数据，进而提高文本分类任务性能。

Nov, 2019

利用 LLM 增加 NER 数据集：走向自动化和精确注释

在自然语言处理（NLP）领域，命名实体识别（NER）被认为是一项关键技术，广泛应用于各种应用。本研究引入了一种新颖的混合标注方法，将人力与大型语言模型（LLMs）的能力相结合，旨在提高 NER 模型的性能，并以经济的方式解决传统标注方法存在的噪音和类别不平衡问题。通过多个数据集的分析，该方法在受限预算条件下始终显示出比传统标注方法更优越的性能，揭示了利用 LLMs 提高数据集质量的潜力，引入了一种减轻类别不平衡问题的新技术，并证明了以经济方式实现高性能 NER 的可行性。

Mar, 2024

基于实体感知语法树的数据增强方法用于自然语言理解

本文提出了一种新的自然语言处理数据增强技术，称为 “实体感知数据增强（EADA）”，它通过应用实体感知语法树（EAST）来生成大量的训练实例，从而用于意图检测和槽填充，实验证明该技术在精度和泛化能力方面均优于现有的数据增强方法。

Sep, 2022

RoPDA：面向低资源命名实体识别的鲁棒性基于提示的数据增强

提出了一种名为 RoPDA 的数据增强方法，使用基于预训练语言模型的连续提示方法，在低资源的 NER 任务中生成标签反转和标签保存的样本，通过滤除低质量样本和 mixup 技术来优化利用增强样本，实验证明该方法显著提高了性能并超越了半监督学习方法。

Jul, 2023

命名实体识别简单数据增强分析

本研究针对基于标记序列的命名实体识别任务，设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集（i2b2-2010 和 MaSciP）上进行实验，我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能，尤其是对于小训练集的情况。

Oct, 2020