跨领域命名实体识别的数据增强
本文提出了一种基于理性的两步数据增强方法来提高模型的泛化性能,用于跨域 NER 任务,结果表明我们的模型无论是在数据增强还是提示调整方法中都显著提高了交叉域 NER 任务的性能。
Aug, 2022
本研究提出了一种基于领域知识的命名实体识别方法,使用领域词典和标注数据来提高低资源领域中的命名实体识别效果,避免大规模数据调整的同时,在科技设备领域数据集上实现了显著的 F1 分数提升。
Mar, 2022
为了解决交叉域命名实体识别 (NER) 任务中样本少的问题,作者提出了一个跨领域 NER 数据集 CrossNER, 进行了一系列实验来探索利用不同级别的领域语料库和预训练策略进行域自适应预训练的有效性,研究表明利用包含领域特定实体的分数语料库并采用更具挑战性的预训练策略对于 NER 的域自适应有益,提出的方法在跨领域 NER 基线上效果更好。
Dec, 2020
我们在英语中以命名实体识别任务为案例研究,探索样式迁移作为数据增强方法以增加低资源情境下的训练数据的大小和多样性。我们通过改变高资源域中的文本样式相关属性来生成合成数据进行训练,并设计一种受限的解码算法和一系列关键因素来选择数据以保证生成有效和连贯的数据。五种不同领域之间的实验和分析表明,我们的方法与当前最先进的数据增强方法相比可以显着改善结果。我们的方法是一种实际的数据稀缺性解决方案,并且我们预计它可应用于其他 NLP 任务。
Oct, 2022
本文提出了基于回译技术的数据增强策略,用于命名实体识别任务的低资源域,实验结果表明该方法在材料科学和生物医学领域中均表现出了高效的性能。
Aug, 2021
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020
本文提出了使用分布式词表示有效地将一个领域中学习的模型适应到其他领域的方法,并分析了不同领域之间的语言变异以识别可以提高性能的语言见解,提出了捕捉词汇用法的领域特定语义的方法,并演示了如何有效地使用此类领域特定知识来学习在领域适应设置中优于以前基准的 NER 模型。
Dec, 2016
本文研究神经网络结构在新闻信息提取任务上的应用,并针对不同领域应用的性能下降问题,提出一种轻量而有效的域适应方法,无需使用源域数据进行重新训练,在社交媒体等新兴领域中具有显著的应用价值。
Oct, 2018
本文提出一种基于 Transformer 的句子编辑器 Edit-transformer,用于实现跨域数据扩充,能够在源域使用大规模的训练数据,学习哪些变化对于意义的影响较大,在目标域中增加训练数据,从而在下游任务中取得显著的性能提升。
Mar, 2020