神经命名实体识别数据适应技术调查

我们提出了一种数据增强技术，用于科学出版物中的过程提取任务。我们将过程提取任务视为序列标注任务，通过识别句子中的所有实体并根据其特定于过程的角色标记它们来完成任务。所提出的方法通过利用（1）原始句子中的特定于过程的信息，（2）角色标签相似度和（3）句子相似度来创建有意义的增强句子。我们证明了所提出的方法在化学领域数据集上训练的过程提取模型的性能显著提高，性能准确度提高了 12.3 个百分点（F 分数）。这些方法还可以在训练小数据集或在化学和其他科学领域等低资源环境中减少过拟合的可能性。

May, 2024

样式转移作为数据增强的案例研究：命名实体识别

我们在英语中以命名实体识别任务为案例研究，探索样式迁移作为数据增强方法以增加低资源情境下的训练数据的大小和多样性。我们通过改变高资源域中的文本样式相关属性来生成合成数据进行训练，并设计一种受限的解码算法和一系列关键因素来选择数据以保证生成有效和连贯的数据。五种不同领域之间的实验和分析表明，我们的方法与当前最先进的数据增强方法相比可以显着改善结果。我们的方法是一种实际的数据稀缺性解决方案，并且我们预计它可应用于其他 NLP 任务。

Oct, 2022

命名实体识别中未标注实体问题的实证分析

通过使用负采样，避免 NER 模型的训练受到未标注实体的干扰，提出了一种能够有效应对未标注实体问题的方法。在实验中，该方法表现出很强的鲁棒性，甚至能够超越现有的基线模型。

Dec, 2020

自然语言处理中的数据增强方法综述

本文综述了数据增强的三个类别：释义、加噪和采样，以及在 NLP 中的应用和挑战。

Oct, 2021

使用神经网络进行命名实体识别的迁移学习

通过转移学习，可以提高病历记录去识别的最新技术在有限标记数据集上的性能。

May, 2017

奇幻小说中鲁棒字符检测的数据增强

本文讨论利用数据增强技术来提高命名实体识别的召回率，同时介绍了如何通过提供更多的局部上下文来解决某些歧义问题。

Feb, 2023