中文命名实体识别中词典使用的简化
本文研究了一种基于格子结构的 LSTM 模型用于汉语命名实体识别,在编码一系列输入字符的同时,还编码与词典匹配的所有潜在词。与基于字符的方法相比,我们的模型明确利用了单词和单词序列信息。与基于单词的方法相比,格内 LSTM 不受分割错误的影响。门控循环单元允许我们的模型从句子中选择最相关的字符和单词以达到更好的命名实体识别结果。各种数据集上的实验表明了格内 LSTM 优于基于单词和字符的 LSTM 基线,取得了最佳结果。
May, 2018
通过将词库整合到字符级序列中,我们提出了一种统一的格点图融合(ULGF)方法,用于中文命名实体识别。ULGF 可以明确捕捉字符 - 词语空间中细粒度语义单元之间的各种语义和边界关系,通过将格点结构转换为统一的图形来实现。我们堆叠多个基于图形的源内自我关注和源间交叉门控融合层,以迭代地进行语义交互以学习节点表示。为了减轻对词语信息的过度依赖,我们进一步提出了以词库实体分类作为辅助任务。在四个中文命名实体识别基准数据集上的实验证明了我们 ULGF 方法的优越性。
Dec, 2023
本研究提出 FLAT:Flat-LAttice Transformer,将复杂动态的中文命名实体识别字符 - 词格结构转换成跨度组成的平面结构,借助 Transformer 和精心设计的位置编码完全利用格子信息,具有出色的并行化能力和性能效率。在四个数据集上的实验证明,FLAT 在性能和效率方面均优于其他基于词典的模型。
Apr, 2020
本篇论文提出一种运用中文字符字形并覆盖了一些语义信息的 CNN 模型进行命名实体识别,该模型取得了比使用传统特征的模型更好的成果,提升了命名实体识别的效率。
Sep, 2019
本文提出了一种增强 BERT 的方法,称为 LEBERT,通过引入一个词典适配器层,将外部词典知识直接集成到 BERT 的底层中,以便实现深层次的词典知识融合,从而在多项中文序列标注任务中取得了最佳结果。
May, 2021
该研究提出了基于字符的第二阶 lexicon 知识的模型,该模型能够更好地利用全局上下文来提取词汇信息,从而提高了中文命名实体识别的效果。
Jul, 2020
本文提出了一种新颖的神经网络模型,利用混合双向 LSTM 和 CNN 架构自动检测单词和字符级特征,并提出了一种将部分词典匹配编码到神经网络中的方法。经过广泛评估,使用两个来自公开资源的词典,该系统在 CoNLL-2003 数据集上达到 91.62 的 F1 分数,在 OntoNotes 上达到 86.28 的 F1 分数,超过了其他采用重度特征工程、专有词典和丰富的实体链接信息的系统。
Nov, 2015
本文提出了一种新的学习单词嵌入的方法,可以利用相关词汇表的信息来改进单词表示,并使用神经单词嵌入在 CoNLL 和 Ontonotes NER 中实现了最先进的结果。在公共数据上取得了 90.9 的 F1 评分,优于以前的任何系统,并与使用私有工业查询日志数据的系统匹配。
Apr, 2014
本文提出了一种可加强 GPU 并行性和计算批处理的具有孔状结构的基于两个非邻近标记共用枢轴节点的自注注意力的基于格子的变压器编码器,并在四个数据集上进行了实验。结果表明,该模型的性能与最先进的模型大致相当,但速度最多快 9.47 倍。
Nov, 2019
本文提出了一种新的方法,利用单词结构并将词汇语义融入预训练模型的字符表示中,以加强单词信息的表达,通过词 - 字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能,并进一步证明了模型各组件的有效性。
Jul, 2022