中文命名实体识别中词典使用的简化

ACLAug, 2019

中文命名实体识别中词典使用的简化

Simplify the Usage of Lexicon in Chinese NER

Ruotian Ma, Minlong Peng, Qi Zhang, Xuanjing Huang

TL;DR本研究提出一种可将词汇词典简单地并入字表示的方法，以提高中国命名实体识别的性能，且速度比现有最先进的方法快 6.15 倍，同时具有更好的性能与可与预训练模型集成的能力。

Abstract

Recently, many works have tried to augment the performance of Chinese named entity recognition (NER) using word lexicons. As a representative, la

chinese named entity recognition word lexicons lattice-lstm neural ner model performance

发现论文，激发创造

基于 Lattice LSTM 的中文命名实体识别

本文研究了一种基于格子结构的 LSTM 模型用于汉语命名实体识别，在编码一系列输入字符的同时，还编码与词典匹配的所有潜在词。与基于字符的方法相比，我们的模型明确利用了单词和单词序列信息。与基于单词的方法相比，格内 LSTM 不受分割错误的影响。门控循环单元允许我们的模型从句子中选择最相关的字符和单词以达到更好的命名实体识别结果。各种数据集上的实验表明了格内 LSTM 优于基于单词和字符的 LSTM 基线，取得了最佳结果。

May, 2018

统一晶格图融合用于中文命名实体识别

通过将词库整合到字符级序列中，我们提出了一种统一的格点图融合（ULGF）方法，用于中文命名实体识别。ULGF 可以明确捕捉字符 - 词语空间中细粒度语义单元之间的各种语义和边界关系，通过将格点结构转换为统一的图形来实现。我们堆叠多个基于图形的源内自我关注和源间交叉门控融合层，以迭代地进行语义交互以学习节点表示。为了减轻对词语信息的过度依赖，我们进一步提出了以词库实体分类作为辅助任务。在四个中文命名实体识别基准数据集上的实验证明了我们 ULGF 方法的优越性。

Dec, 2023

FLAT: 使用 Flat-Lattice Transformer 进行中文命名实体识别

本研究提出 FLAT：Flat-LAttice Transformer，将复杂动态的中文命名实体识别字符 - 词格结构转换成跨度组成的平面结构，借助 Transformer 和精心设计的位置编码完全利用格子信息，具有出色的并行化能力和性能效率。在四个数据集上的实验证明，FLAT 在性能和效率方面均优于其他基于词典的模型。

Apr, 2020

使用汉字对命名实体进行识别

本篇论文提出一种运用中文字符字形并覆盖了一些语义信息的 CNN 模型进行命名实体识别，该模型取得了比使用传统特征的模型更好的成果，提升了命名实体识别的效率。

Sep, 2019

使用 BERT Adapter 进行词典增强的中文序列标注

本文提出了一种增强 BERT 的方法，称为 LEBERT，通过引入一个词典适配器层，将外部词典知识直接集成到 BERT 的底层中，以便实现深层次的词典知识融合，从而在多项中文序列标注任务中取得了最佳结果。

May, 2021

SLK-NER：利用二阶词汇知识进行中文命名实体识别

该研究提出了基于字符的第二阶 lexicon 知识的模型，该模型能够更好地利用全局上下文来提取词汇信息，从而提高了中文命名实体识别的效果。

Jul, 2020

双向 LSTM-CNN 命名实体识别

本文提出了一种新颖的神经网络模型，利用混合双向 LSTM 和 CNN 架构自动检测单词和字符级特征，并提出了一种将部分词典匹配编码到神经网络中的方法。经过广泛评估，使用两个来自公开资源的词典，该系统在 CoNLL-2003 数据集上达到 91.62 的 F1 分数，在 OntoNotes 上达到 86.28 的 F1 分数，超过了其他采用重度特征工程、专有词典和丰富的实体链接信息的系统。

Nov, 2015

注入词库的短语嵌入用于命名实体识别

本文提出了一种新的学习单词嵌入的方法，可以利用相关词汇表的信息来改进单词表示，并使用神经单词嵌入在 CoNLL 和 Ontonotes NER 中实现了最先进的结果。在公共数据上取得了 90.9 的 F1 评分，优于以前的任何系统，并与使用私有工业查询日志数据的系统匹配。

Apr, 2014

基于多孔网络结构的中文 NER 的转换器编码器

本文提出了一种可加强 GPU 并行性和计算批处理的具有孔状结构的基于两个非邻近标记共用枢轴节点的自注注意力的基于格子的变压器编码器，并在四个数据集上进行了实验。结果表明，该模型的性能与最先进的模型大致相当，但速度最多快 9.47 倍。

Nov, 2019

利用词语语义丰富汉语预训练模型的字表示

本文提出了一种新的方法，利用单词结构并将词汇语义融入预训练模型的字符表示中，以加强单词信息的表达，通过词 - 字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能，并进一步证明了模型各组件的有效性。

Jul, 2022