神经命名实体识别数据适应技术调查
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020
本文提出了基于回译技术的数据增强策略,用于命名实体识别任务的低资源域,实验结果表明该方法在材料科学和生物医学领域中均表现出了高效的性能。
Aug, 2021
提出了一种名为 EnTDA 的数据增强方法,通过添加、删除、替换和交换实体来打破实体间的依赖关系,并采用多样性 beam search 策略增加数据的多样性,以提高在 13 个 NER 数据集上的表现。
Oct, 2022
我们提出了一种数据增强技术,用于科学出版物中的过程提取任务。我们将过程提取任务视为序列标注任务,通过识别句子中的所有实体并根据其特定于过程的角色标记它们来完成任务。所提出的方法通过利用(1)原始句子中的特定于过程的信息,(2)角色标签相似度和(3)句子相似度来创建有意义的增强句子。我们证明了所提出的方法在化学领域数据集上训练的过程提取模型的性能显著提高,性能准确度提高了 12.3 个百分点(F 分数)。这些方法还可以在训练小数据集或在化学和其他科学领域等低资源环境中减少过拟合的可能性。
May, 2024
我们在英语中以命名实体识别任务为案例研究,探索样式迁移作为数据增强方法以增加低资源情境下的训练数据的大小和多样性。我们通过改变高资源域中的文本样式相关属性来生成合成数据进行训练,并设计一种受限的解码算法和一系列关键因素来选择数据以保证生成有效和连贯的数据。五种不同领域之间的实验和分析表明,我们的方法与当前最先进的数据增强方法相比可以显着改善结果。我们的方法是一种实际的数据稀缺性解决方案,并且我们预计它可应用于其他 NLP 任务。
Oct, 2022
通过使用负采样,避免 NER 模型的训练受到未标注实体的干扰,提出了一种能够有效应对未标注实体问题的方法。在实验中,该方法表现出很强的鲁棒性,甚至能够超越现有的基线模型。
Dec, 2020