奇幻小说中鲁棒字符检测的数据增强
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020
通过数据增强来提高命名实体识别的置信度校准和不确定性估计,在安全关键领域如医疗保健和金融中应用深度神经网络时实现准确的预测非常重要。本研究发现数据增强在跨领域和跨语言的环境中,尤其是在领域内环境中,可以改善命名实体识别的置信度校准和不确定性。此外,研究还表明,当通过数据增强生成的句子的困惑度较低时,命名实体识别的置信度校准更为有效,并且增加增强的规模可以进一步改善置信度校准和不确定性。
Jul, 2024
提出了一种名为 EnTDA 的数据增强方法,通过添加、删除、替换和交换实体来打破实体间的依赖关系,并采用多样性 beam search 策略增加数据的多样性,以提高在 13 个 NER 数据集上的表现。
Oct, 2022
本文旨在量化命名实体识别(NER)方法在 Web 内容和用户生成内容中的多样性如何影响其效果,并发现 NER 方法在具有有限训练数据的多样化数据类型中难以实现推广。文章还发现,领先的 NER 系统靠训练数据中的表面形式,很难进行推广。
Jan, 2017
研究了使用部分标记数据进行命名实体识别的问题,用迭代算法通过识别假负标签减小其权值,训练带有偏重的 NER 模型,取得 8 种语言的实验结果,并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。
Sep, 2019
本文提出了一种弱监督数据增强方法,用于提高命名实体识别在具有挑战性的领域中的表现,结果表明该方法显著提高了 NER 性能,同时讨论了影响该方法有效性的因素。
Jun, 2019
本研究介绍了一项新任务:Dynamic Named Entity Recognition(DNER),提供了一个框架,以更好地利用上下文来评估算法提取实体的能力。DNER 基于两个数据集,DNER-RotoWire 和 DNER-IMDb,我们评估了基线模型并提出了与此新任务相关的问题和研究方向的实验。
Feb, 2023
使用专家引导的启发式方法构建了一个高质量的 CoNLL 2003 测试数据集,通过基于此集合的对抗性扰动来评估 NER 模型的泛化能力,并且通过使用混合数据训练技术来显著提高在挑战集上的性能以及提高了域外泛化能力。
Mar, 2022