奇幻小说中鲁棒字符检测的数据增强

Feb, 2023

奇幻小说中鲁棒字符检测的数据增强

Data Augmentation for Robust Character Detection in Fantasy Novels

Arthur Amalvy, Vincent Labatut, Richard Dufour

TL;DR本文讨论利用数据增强技术来提高命名实体识别的召回率，同时介绍了如何通过提供更多的局部上下文来解决某些歧义问题。

Abstract

named entity recognition (NER) is a low-level task often used as a foundation for solving higher level NLP problems. In the context of character detection in novels, NER false negatives can be an issue as they possibly imply missing certain characters or relationships completely. In th

named entity recognition data augmentation local context ambiguities higher recall

发现论文，激发创造

命名实体识别简单数据增强分析

本研究针对基于标记序列的命名实体识别任务，设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集（i2b2-2010 和 MaSciP）上进行实验，我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能，尤其是对于小训练集的情况。

Oct, 2020

跨领域命名实体识别的数据增强

通过学习不同领域间的文本模式和数据特征，并为高资源领域提供低资源领域数据增强，我们提出了一种新的神经架构，可以大幅提高命名实体识别任务性能。

Sep, 2021

数据增强方法对命名实体识别是否适用于不确定性估计？

通过数据增强来提高命名实体识别的置信度校准和不确定性估计，在安全关键领域如医疗保健和金融中应用深度神经网络时实现准确的预测非常重要。本研究发现数据增强在跨领域和跨语言的环境中，尤其是在领域内环境中，可以改善命名实体识别的置信度校准和不确定性。此外，研究还表明，当通过数据增强生成的句子的困惑度较低时，命名实体识别的置信度校准更为有效，并且增加增强的规模可以进一步改善置信度校准和不确定性。

Jul, 2024

EnTDA: 基于实体到文本的数据增强方法，用于命名实体识别任务

提出了一种名为 EnTDA 的数据增强方法，通过添加、删除、替换和交换实体来打破实体间的依赖关系，并采用多样性 beam search 策略增加数据的多样性，以提高在 13 个 NER 数据集上的表现。

Oct, 2022

命名实体识别中的泛化：定量分析

本文旨在量化命名实体识别（NER）方法在 Web 内容和用户生成内容中的多样性如何影响其效果，并发现 NER 方法在具有有限训练数据的多样化数据类型中难以实现推广。文章还发现，领先的 NER 系统靠训练数据中的表面形式，很难进行推广。

Jan, 2017

使用部分标注的训练数据进行命名实体识别

研究了使用部分标记数据进行命名实体识别的问题，用迭代算法通过识别假负标签减小其权值，训练带有偏重的 NER 模型，取得 8 种语言的实验结果，并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。

Sep, 2019

通过参考集增强的蒸馏自举方法实现生物医学命名实体识别（Biomedical Named Entity Recognition via Reference-Set Augmented Bootstrapping）

本文提出了一种弱监督数据增强方法，用于提高命名实体识别在具有挑战性的领域中的表现，结果表明该方法显著提高了 NER 性能，同时讨论了影响该方法有效性的因素。

Jun, 2019

动态命名实体识别

本研究介绍了一项新任务：Dynamic Named Entity Recognition（DNER），提供了一个框架，以更好地利用上下文来评估算法提取实体的能力。DNER 基于两个数据集，DNER-RotoWire 和 DNER-IMDb，我们评估了基线模型并提出了与此新任务相关的问题和研究方向的实验。

Feb, 2023

运用专家指导的对抗性扩充来提高命名实体识别的泛化能力

使用专家引导的启发式方法构建了一个高质量的 CoNLL 2003 测试数据集，通过基于此集合的对抗性扰动来评估 NER 模型的泛化能力，并且通过使用混合数据训练技术来显著提高在挑战集上的性能以及提高了域外泛化能力。

Mar, 2022

神经命名实体识别数据适应技术调查

本研究探讨利用大型单语无标注语料库和数据合成两种方法对三个不同命名实体识别任务性能的影响

Oct, 2021