跨领域命名实体识别的数据增强

EMNLPSep, 2021

Data Augmentation for Cross-Domain Named Entity Recognition

Shuguang Chen, Gustavo Aguilar, Leonardo Neves, Thamar Solorio

TL;DR通过学习不同领域间的文本模式和数据特征，并为高资源领域提供低资源领域数据增强，我们提出了一种新的神经架构，可以大幅提高命名实体识别任务性能。

Abstract

Current work in named entity recognition (NER) shows that data augmentation techniques can produce more robust models. However, most existing techniques focus on augmenting in-domain data in →

named entity recognition data augmentation cross-domain neural architecture low-resource

发现论文，激发创造

FactMix: 使用少量领域内标注样本泛化到跨领域命名实体识别

本文提出了一种基于理性的两步数据增强方法来提高模型的泛化性能，用于跨域 NER 任务，结果表明我们的模型无论是在数据增强还是提示调整方法中都显著提高了交叉域 NER 任务的性能。

Aug, 2022

利用领域知识进行低资源命名实体识别

本研究提出了一种基于领域知识的命名实体识别方法，使用领域词典和标注数据来提高低资源领域中的命名实体识别效果，避免大规模数据调整的同时，在科技设备领域数据集上实现了显著的 F1 分数提升。

Mar, 2022

CrossNER: 跨领域命名实体识别的评估

为了解决交叉域命名实体识别 (NER) 任务中样本少的问题，作者提出了一个跨领域 NER 数据集 CrossNER, 进行了一系列实验来探索利用不同级别的领域语料库和预训练策略进行域自适应预训练的有效性，研究表明利用包含领域特定实体的分数语料库并采用更具挑战性的预训练策略对于 NER 的域自适应有益，提出的方法在跨领域 NER 基线上效果更好。

Dec, 2020

样式转移作为数据增强的案例研究：命名实体识别

我们在英语中以命名实体识别任务为案例研究，探索样式迁移作为数据增强方法以增加低资源情境下的训练数据的大小和多样性。我们通过改变高资源域中的文本样式相关属性来生成合成数据进行训练，并设计一种受限的解码算法和一系列关键因素来选择数据以保证生成有效和连贯的数据。五种不同领域之间的实验和分析表明，我们的方法与当前最先进的数据增强方法相比可以显着改善结果。我们的方法是一种实际的数据稀缺性解决方案，并且我们预计它可应用于其他 NLP 任务。

Oct, 2022

使用回译的数据增强方法应用于低资源的命名实体识别

本文提出了基于回译技术的数据增强策略，用于命名实体识别任务的低资源域，实验结果表明该方法在材料科学和生物医学领域中均表现出了高效的性能。

Aug, 2021

零资源跨领域命名实体识别

本文提出了一种跨领域命名实体识别模型，使用多任务学习和实体专家混合方法，实现了零资源领域自适应，性能优于其他无监督跨域序列标注模型。

Feb, 2020

命名实体识别简单数据增强分析

本研究针对基于标记序列的命名实体识别任务，设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集（i2b2-2010 和 MaSciP）上进行实验，我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能，尤其是对于小训练集的情况。

Oct, 2020

基于词嵌入的在线媒体命名实体识别领域自适应

本文提出了使用分布式词表示有效地将一个领域中学习的模型适应到其他领域的方法，并分析了不同领域之间的语言变异以识别可以提高性能的语言见解，提出了捕捉词汇用法的领域特定语义的方法，并演示了如何有效地使用此类领域特定知识来学习在领域适应设置中优于以前基准的 NER 模型。

Dec, 2016

用于跨领域命名实体识别的神经适应层

本文研究神经网络结构在新闻信息提取任务上的应用，并针对不同领域应用的性能下降问题，提出一种轻量而有效的域适应方法，无需使用源域数据进行重新训练，在社交媒体等新兴领域中具有显著的应用价值。

Oct, 2018

通过神经句子编辑快速实现跨领域数据增强

本文提出一种基于 Transformer 的句子编辑器 Edit-transformer，用于实现跨域数据扩充，能够在源域使用大规模的训练数据，学习哪些变化对于意义的影响较大，在目标域中增加训练数据，从而在下游任务中取得显著的性能提升。

Mar, 2020