通过搜索引擎增强提高中文命名实体识别
在本文中,我们提出了一种基于神经网络的命名实体识别方法,它能够同时考虑本地文本信息和通过对大规模语料库进行语义扩充所获得的信息,并且采用注意力机制和门控机制来编码和聚合这些信息,从而在三个从英文和中文社交媒体平台收集的基准数据集上展现出了明显的优越性。
Oct, 2020
本文提出使用搜索引擎检索并选择一些语义相关的文本来找到句子的外部上下文。我们发现,使用合作学习训练模型,可以更好地利用外部上下文提高模型的性能,在 5 个领域的 8 个数据集上取得了最新的最佳成绩。
May, 2021
本文提出了一种简单而有效的基于神经网络的框架 ME-CNER,用于通过多粒度的字符级表示来识别汉语微博中的命名实体。实验结果表明,该方法在 Weibo 数据集上取得了显著的性能提升。
Aug, 2019
本篇论文提出一种运用中文字符字形并覆盖了一些语义信息的 CNN 模型进行命名实体识别,该模型取得了比使用传统特征的模型更好的成果,提升了命名实体识别的效率。
Sep, 2019
本文介绍了一种新的命名实体识别级联方法,它由三个步骤组成:首先在输入句子中识别候选实体,然后将每个候选实体链接到现有的知识库中,最后预测每个实体候选的细粒度类别。实验证明,外部知识库在准确分类细粒度和新兴实体方面具有重要意义,并且我们的系统在 MultiCoNER2 共享任务中表现出强大的性能,即使在使用高资源语言的知识库情况下,也能在低资源语言环境中获得良好的表现。
Apr, 2023
本文提出了一种自适应 NER 方法,利用未经充分学习的实体作为查询,从非结构化文本中检索外部知识,以提高模型的性能。通过实验验证,该模型在 CrossNER 数据集上表现优于强基准模型 2.35 个 F1 分数。
Oct, 2022
本文提出了一个基于不确定性抽取辅助知识的中文命名实体识别框架 TURNER,该框架利用搜索引擎等通用知识资源代替特定领域的高质量词典,通过不确定性抽样方法选择难以判断的实体,再由知识融合模型对这些实体进行重新预测。实验表明,TURNER 在四个基准数据集上的表现优于现有的基于词典的方法,取得了新的最优成绩。
Feb, 2022
本文提出了一种神经方法来解决中文命名实体识别的挑战,该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文,引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力,以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明,该方法特别适用于训练数据不足的情况下,可以有效提高中文命名实体识别的性能。
Apr, 2019
使用多任务框架,将文本描述与知识图谱实体相关联,以改进知识图谱的性能,并通过检索模型选择富有信息或高度相关的文本描述来增强实体。实验结果显示,与传统的卷积神经网络相比,使用文本增强的知识图谱方法在链接预测中的 Mean Reciprocal Rank (MRR) 和 Hits@10 分别提高了 5.5% 和 3.5%。
Jul, 2023