利用多个嵌入进行中文命名实体识别

Aug, 2019

利用多个嵌入进行中文命名实体识别

Exploiting Multiple Embeddings for Chinese Named Entity Recognition

Canwen Xu, Feiyang Wang, Jialong Han, Chenliang Li

TL;DR本文提出了一种简单而有效的基于神经网络的框架 ME-CNER，用于通过多粒度的字符级表示来识别汉语微博中的命名实体。实验结果表明，该方法在 Weibo 数据集上取得了显著的性能提升。

Abstract

Identifying the named entities mentioned in text would enrich many semantic applications at the downstream level. However, due to the predominant usage of colloquial language in microblogs, the named entity recognition (NER) in →

named entity recognition chinese microblogs character-level embeddings semantic information weibo dataset

发现论文，激发创造

使用汉字对命名实体进行识别

本篇论文提出一种运用中文字符字形并覆盖了一些语义信息的 CNN 模型进行命名实体识别，该模型取得了比使用传统特征的模型更好的成果，提升了命名实体识别的效率。

Sep, 2019

利用神经字符嵌入提高命名实体识别

本文介绍了一种基于 CharWNN 深度神经网络的自适应特征命名实体识别系统，使用自动学习特征实现多语种 NER 任务，证明了字符嵌入在 NER 中的有效性。试验结果表明，CharWNN 的性能优于现有最先进的系统。

May, 2015

MECT: 基于多元数据嵌入的跨注意力机制转换器用于中文命名实体识别

本篇论文提出了一种基于多元数据嵌入跨 Transformer（MECT）的方法，结合汉字的结构信息来提高汉语命名实体识别（NER）的性能，并使用两个流 Transformer 进行多元数据嵌入来集成汉字特征与基本层次嵌入。在多个著名的基准测试数据集上进行的实验表明，该方法在 NER 方面具有较好的表现。

Jul, 2021

通过多粒度嵌入和增强标注进行多级生物医学命名实体识别

本文提出了一种集成多种模型的混合方法，以解决生物医学实体识别中的局限性，并在 i2b2/2010 数据集上评估，得到了 90.11 的 F1 分数。

Dec, 2023

CNN-LSTM-CRF 和词语分割联合训练实现的神经网络中文命名实体识别

本文提出了一种神经方法来解决中文命名实体识别的挑战，该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文，引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力，以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明，该方法特别适用于训练数据不足的情况下，可以有效提高中文命名实体识别的性能。

Apr, 2019

通过搜索引擎增强提高中文命名实体识别

本研究旨在提出一种基于外部知识语义增强的神经网络方法，通过多通道语义融合模型结合检索自搜索引擎的外部相关文本，对中文命名实体识别进行研究，实验证明该方法在正式和社交媒体语境下四个命名实体数据集中均取得了较好的效果。

Oct, 2022

中文分词的多字符嵌入

本篇论文提出一种采用多种字符嵌入的共享 Bi-LSTM-CRF 模型来进行中文分词，并在实验中证明此方法能够显著提高分词准确率，同时在 AS 和 CityU 语料库中取得了 96.9 和 97.3 的最优 F1 得分。

Aug, 2018

CMNER: 基于社交媒体的中文多模态命名实体识别数据集

通过从中国最大的社交媒体平台微博获取数据，我们编制了一个包含 5000 个微博帖子和 18326 个对应图片的中文多模态命名实体识别数据集（CMNER）。我们在 CMNER 上进行了基准实验，结果表明将图像与 NER 相结合的有效性。此外，我们还在公开的英文多模态命名实体识别数据集（Twitter2015）上进行了跨语言实验，结果证实了中文和英文多模态 NER 数据可以相互增强 NER 模型的性能。

Feb, 2024

CAN-NER：用于中文命名实体识别的卷积注意力网络

本研究探讨了一种名为 Convolutional Attention Network (CAN) 的中文命名实体识别方法，该方法基于字符级卷积神经网络与门控循环神经网络，通过局部注意层和全局自注意层来捕获相邻字符和句子上下文的信息，并不依赖于外部词典等资源，使用小的字符嵌入，有效地提高了识别性能。该方法在微博、MSRA 和中文简历数据集等不同领域数据集上表现优于现有最先进方法，且不需要使用字嵌入和外部词典资源。

Apr, 2019

探索上下文和嵌入在神经命名实体识别模型中在任务定向对话系统中的重要性

本文通过在任务导向的对话系统中评估经过修改的最新神经网络架构的性能，研究了从文本、字符特征和外部语料库中训练的词嵌入的使用方式，并探讨了前一个话语作为附加特征的不同组合，以及在添加自动翻译的英语 - 翻译和英语 - 转录版本到英语数据集后的实验重复性。

Dec, 2018