FGN:用于中文命名实体识别的融合字形网络
本篇论文提出一种运用中文字符字形并覆盖了一些语义信息的 CNN 模型进行命名实体识别,该模型取得了比使用传统特征的模型更好的成果,提升了命名实体识别的效率。
Sep, 2019
通过将词库整合到字符级序列中,我们提出了一种统一的格点图融合(ULGF)方法,用于中文命名实体识别。ULGF 可以明确捕捉字符 - 词语空间中细粒度语义单元之间的各种语义和边界关系,通过将格点结构转换为统一的图形来实现。我们堆叠多个基于图形的源内自我关注和源间交叉门控融合层,以迭代地进行语义交互以学习节点表示。为了减轻对词语信息的过度依赖,我们进一步提出了以词库实体分类作为辅助任务。在四个中文命名实体识别基准数据集上的实验证明了我们 ULGF 方法的优越性。
Dec, 2023
本文提出了一种神经方法来解决中文命名实体识别的挑战,该方法包括使用 CNN-LSTM-CRF 神经架构来捕捉 CNER 的本地和长距离上下文,引入统一框架来联合训练 CNER 和分词模型以增强 CNER 模型在识别实体边界方面的能力,以及使用自动方法从现有标记数据生成伪标记样本来扩充训练数据。实验结果表明,该方法特别适用于训练数据不足的情况下,可以有效提高中文命名实体识别的性能。
Apr, 2019
本研究探讨了一种名为 Convolutional Attention Network (CAN) 的中文命名实体识别方法,该方法基于字符级卷积神经网络与门控循环神经网络,通过局部注意层和全局自注意层来捕获相邻字符和句子上下文的信息,并不依赖于外部词典等资源,使用小的字符嵌入,有效地提高了识别性能。该方法在微博、MSRA 和中文简历数据集等不同领域数据集上表现优于现有最先进方法,且不需要使用字嵌入和外部词典资源。
Apr, 2019
本研究提出了一种基于触发器的图神经网络(Trigger-GNN),通过实体触发编码和语义匹配获取补充注释嵌入,并利用高效的图传递体系结构解决嵌套实体问题。实验表明,Trigger-GNN 在四个公共 NER 数据集上始终优于基线,并能有效缓解嵌套 NER。
Apr, 2022
本文提出了一种基于 gated relation network 的卷积神经网络模型,用于更好地捕捉词汇间的长期关联以用于命名实体识别,实验结果表明,该模型可以在 CoNLL2003 和 Ontonotes 5.0 数据集上实现最先进的性能。
Jul, 2019
通过引入历史汉字、设计面向中文的卷积神经网络结构、利用图像分类作为多任务学习的辅助任务,我们提出了基于字形向量的中文字符表示方法 Glyce, 并在中文自然语言处理任务中取得了比基于字或词的模型更好的性能。
Jan, 2019
本文介绍了一种名为 GAS-NeXt 的新型深度学习方法,利用替代原始编码器和解码器的想法,并利用 AGIS-Net 的形状、纹理和本地判别器,结合 Font Translator GAN 的层次注意力和上下文感知注意力实现跨语言生成字体。在英文到中文的字体转换实验中,GAS-NeXt 相比 Font Translator GAN 的表现更好。同时作者还在多种语言和数据集上验证了他们的方法。
Dec, 2022
本文提出了一种名为全卷积循环网络 (FCRN) 的端到端框架用于手写汉字文本识别。FCRN 基于在线文本数据进行训练,不像传统方法依赖于分割,它学习将笔尖轨迹与字符序列关联起来。本文还提出了一种优化的波束搜索方法,有效地集成语言模型来解码 FCRN 并显著提高识别结果。在 CASIA-OLHWDB 和 ICDAR 2013 数据集上进行测试,分别获得 96.40% 和 95.00% 的正确率。
Apr, 2016
本研究提出了基于 B-LSTM 神经网络的半监督学习模型,结合传统方法和深度学习,并利用 F-score 训练模型以提高准确率。最终模型在 named entity recognition 领域取得了 7.44% 的提升。
Nov, 2016