通过搜索引擎增强提高中文命名实体识别

Oct, 2022

通过搜索引擎增强提高中文命名实体识别

Improving Chinese Named Entity Recognition by Search Engine Augmentation

Qinghua Mao, Jiatong Li, Kui Meng

TL;DR本研究旨在提出一种基于外部知识语义增强的神经网络方法，通过多通道语义融合模型结合检索自搜索引擎的外部相关文本，对中文命名实体识别进行研究，实验证明该方法在正式和社交媒体语境下四个命名实体数据集中均取得了较好的效果。

Abstract

Compared with English, Chinese suffers from more grammatical ambiguities, like fuzzy word boundaries and polysemous words. In this case, contextual information is not sufficient to support chinese named entity recognition (NER), especially for rare and emerging named entities.

chinese named entity recognition semantic augmentation external knowledge neural-based approach multi-channel semantic fusion

发现论文，激发创造

运用语义增强的方式进行社交媒体文本的命名实体识别

在本文中，我们提出了一种基于神经网络的命名实体识别方法，它能够同时考虑本地文本信息和通过对大规模语料库进行语义扩充所获得的信息，并且采用注意力机制和门控机制来编码和聚合这些信息，从而在三个从英文和中文社交媒体平台收集的基准数据集上展现出了明显的优越性。

Oct, 2020

利用句法信息的关键实体识别自适应集成提升

通过注意力集成和提出的键值内存网络、语法注意力和门机制来利用不同类型的句法信息，提高了命名实体识别，并在六个英语和中文基准数据集上实验。

Oct, 2020

利用外部上下文检索和协同学习提升命名实体识别

本文提出使用搜索引擎检索并选择一些语义相关的文本来找到句子的外部上下文。我们发现，使用合作学习训练模型，可以更好地利用外部上下文提高模型的性能，在 5 个领域的 8 个数据集上取得了最新的最佳成绩。

May, 2021

利用多个嵌入进行中文命名实体识别

本文提出了一种简单而有效的基于神经网络的框架 ME-CNER，用于通过多粒度的字符级表示来识别汉语微博中的命名实体。实验结果表明，该方法在 Weibo 数据集上取得了显著的性能提升。

Aug, 2019

使用汉字对命名实体进行识别

本篇论文提出一种运用中文字符字形并覆盖了一些语义信息的 CNN 模型进行命名实体识别，该模型取得了比使用传统特征的模型更好的成果，提升了命名实体识别的效率。

Sep, 2019

IXA/Cogcomp 参加 SemEval-2023 第 2 项任务：基于知识库的上下文增强的多语言命名实体识别

本文介绍了一种新的命名实体识别级联方法，它由三个步骤组成：首先在输入句子中识别候选实体，然后将每个候选实体链接到现有的知识库中，最后预测每个实体候选的细粒度类别。实验证明，外部知识库在准确分类细粒度和新兴实体方面具有重要意义，并且我们的系统在 MultiCoNER2 共享任务中表现出强大的性能，即使在使用高资源语言的知识库情况下，也能在低资源语言环境中获得良好的表现。

Apr, 2023

通过检索非结构化知识进行自适应命名实体识别

本文提出了一种自适应 NER 方法，利用未经充分学习的实体作为查询，从非结构化文本中检索外部知识，以提高模型的性能。通过实验验证，该模型在 CrossNER 数据集上表现优于强基准模型 2.35 个 F1 分数。

Oct, 2022

TURNER：面向中文命名实体识别的基于不确定性的检索框架

本文提出了一个基于不确定性抽取辅助知识的中文命名实体识别框架 TURNER，该框架利用搜索引擎等通用知识资源代替特定领域的高质量词典，通过不确定性抽样方法选择难以判断的实体，再由知识融合模型对这些实体进行重新预测。实验表明，TURNER 在四个基准数据集上的表现优于现有的基于词典的方法，取得了新的最优成绩。

Feb, 2022

CNN-LSTM-CRF 和词语分割联合训练实现的神经网络中文命名实体识别

本文提出了一种神经方法来解决中文命名实体识别的挑战，该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文，引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力，以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明，该方法特别适用于训练数据不足的情况下，可以有效提高中文命名实体识别的性能。

Apr, 2019

选择与增强：增强型密集检索知识图增强

使用多任务框架，将文本描述与知识图谱实体相关联，以改进知识图谱的性能，并通过检索模型选择富有信息或高度相关的文本描述来增强实体。实验结果显示，与传统的卷积神经网络相比，使用文本增强的知识图谱方法在链接预测中的 Mean Reciprocal Rank (MRR) 和 Hits@10 分别提高了 5.5% 和 3.5%。

Jul, 2023