基于局部可加性的半监督 NER 数据增强
提出了 $LLM-DA$,这是基于大型语言模型的一种新的数据增强技术,适用于少样本的命名实体识别任务,并实验证明该方法在有限数据情况下能有效提升模型性能。
Feb, 2024
本研究提出了一种基于语言模型的数据增强方法,可以生成高质量的合成数据以提高机器学习性能,在监督和半监督学习环境下,实验结果表明,在给定较少的训练数据的情况下,该方法可以始终优于基准方法。
Nov, 2020
提出了一种新的方法,通过将其他数据集中的丰富示例与给定的训练数据结合起来,通过在原始和检索的样本之间的上下文信息中促使大型语言模型生成新的样本,以增加训练数据的多样性和相关性,在低资源环境中实现了比现有大型语言模型数据增强基线更好的性能。
Feb, 2024
提出了一种名为 EnTDA 的数据增强方法,通过添加、删除、替换和交换实体来打破实体间的依赖关系,并采用多样性 beam search 策略增加数据的多样性,以提高在 13 个 NER 数据集上的表现。
Oct, 2022
本文提出了一种名为基于提示排序的数据增强方法(PODA),使用于预训练语言模型在低资源环境下执行少样本命名实体识别任务,PODA 方法通过提供不按来源序列严格排序但合理多样化的目标实体序列来训练模型,可以加强在各种 NER 任务中的效果表现。
May, 2023
通过现有的自然语言处理技术和文本生成能力,我们提出了一种新的数据增强方法,即基于语言模型的数据增强 (LAMBADA),它可以在有限标注数据的情况下用强大的预训练神经网络模型合成新的有标注数据,进而提高文本分类任务性能。
Nov, 2019
在自然语言处理(NLP)领域,命名实体识别(NER)被认为是一项关键技术,广泛应用于各种应用。本研究引入了一种新颖的混合标注方法,将人力与大型语言模型(LLMs)的能力相结合,旨在提高 NER 模型的性能,并以经济的方式解决传统标注方法存在的噪音和类别不平衡问题。通过多个数据集的分析,该方法在受限预算条件下始终显示出比传统标注方法更优越的性能,揭示了利用 LLMs 提高数据集质量的潜力,引入了一种减轻类别不平衡问题的新技术,并证明了以经济方式实现高性能 NER 的可行性。
Mar, 2024
本文提出了一种新的自然语言处理数据增强技术,称为 “实体感知数据增强(EADA)”,它通过应用实体感知语法树(EAST)来生成大量的训练实例,从而用于意图检测和槽填充,实验证明该技术在精度和泛化能力方面均优于现有的数据增强方法。
Sep, 2022
提出了一种名为 RoPDA 的数据增强方法,使用基于预训练语言模型的连续提示方法,在低资源的 NER 任务中生成标签反转和标签保存的样本,通过滤除低质量样本和 mixup 技术来优化利用增强样本,实验证明该方法显著提高了性能并超越了半监督学习方法。
Jul, 2023
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020