Mulco:通过多重范围识别中文嵌套命名实体
本文提出了一种神经方法来解决中文命名实体识别的挑战,该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文,引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力,以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明,该方法特别适用于训练数据不足的情况下,可以有效提高中文命名实体识别的性能。
Apr, 2019
本研究关注于基于嵌套命名实体识别(NNER)来解决实体重叠识别的问题,提出了一种有效的数据增强方法,使用 Composited-Nested-Label Classification(CNLC)来建模嵌套实体,通过 Composited-Nested-Learning(CNL)对数据集进行扩充,并采用 Confidence Filtering Mechanism(CFM)对生成的数据进行高效选择,实验证明该方法在 ACE2004 和 ACE2005 中取得了改进,并缓解了样本不平衡所带来的影响。
Jun, 2024
本文提出了一种新的多粒度命名实体识别框架,MGNER,用于检测句子中多个实体或实体提及,这些实体或实体提及可以是不重叠或完全嵌套的。该框架通过检测所有可能的单词片段和分类实体来识别命名实体,其中利用了上下文信息和自我注意机制,实验结果表明,MGNER 在非重叠 / 嵌套 NER 任务中比现有的最先进基线算法表现提高了 4.4% 的 F1 分数。
Jun, 2019
本文首次提出了针对 few-shot 嵌套 NER 任务的 Biaffine 对比学习框架 (BCL),该框架利用上下文依赖来区分嵌套实体,将语义表示与上下文跨度表示相结合,并采用对比学习来调整表示分布,实现更大的边缘边界和更广泛的领域迁移学习能力。实验结果表明,在三个英语、德语、俄语嵌套 NER 数据集上,BCL 在 1-shot 和 5-shot 任务中的 F1 得分优于三个基本模型。
Dec, 2022
本文提出使用卷积神经网络来建模得分矩阵中的空间关系以解决嵌套的命名实体识别问题,实验证明相较于最近提出的同类方法,本文提出的方法更为优秀,并且发现不同的论文使用不同的句子标记化会对结果产生影响,因此提供一种易于使用的预处理脚本以便于日后比较。
Aug, 2022
通过从中国最大的社交媒体平台微博获取数据,我们编制了一个包含 5000 个微博帖子和 18326 个对应图片的中文多模态命名实体识别数据集(CMNER)。我们在 CMNER 上进行了基准实验,结果表明将图像与 NER 相结合的有效性。此外,我们还在公开的英文多模态命名实体识别数据集(Twitter2015)上进行了跨语言实验,结果证实了中文和英文多模态 NER 数据可以相互增强 NER 模型的性能。
Feb, 2024
本文提出一种统一的框架,通过将命名实体识别任务形式化为机器阅读理解问题,能够同时处理平面 NER 和嵌套 NER 任务,并在实验中验证该框架在嵌套 NER 数据集上大幅提高性能,并在平面 NER 中获得当前最佳结果。
Oct, 2019
本文提出了一种简单而有效的基于神经网络的框架 ME-CNER,用于通过多粒度的字符级表示来识别汉语微博中的命名实体。实验结果表明,该方法在 Weibo 数据集上取得了显著的性能提升。
Aug, 2019
介绍了一种名为 MultiCoNER 的大型多语言数据集,可支持 11 种语言和 3 个领域的命名实体识别。使用两个 NER 模型对数据集进行了测试,并对其进行了评估。建立的模型都表现出了不俗的性能,但加入 Gazetteers 后性能提高了 30%。希望这个数据集能够帮助研究人员建立更为健壮的命名实体识别系统。
Aug, 2022
介绍了 CLUE 组织发布的 NER 数据集 CLUENER2020 ,它是一个细粒度的、为中文命名实体识别而设计的数据集,包含 10 类别,并且更具挑战性。针对该数据集,实现了几种当前最先进的序列标记任务方法,报告了人类表现及其分析,并发布了该数据集、基线和排行榜。
Jan, 2020