基于语言特征的韩语命名实体识别

May, 2023

基于语言特征的韩语命名实体识别

Korean Named Entity Recognition Based on Language-Specific Features

Yige Chen, KyungTae Lim, Jungyeul Park

TL;DR本文利用特殊语言特征提高韩语命名实体识别，使用 CoNLL-U 格式提出韩语语料库标注方案，实现命名实体标记在分词中减少歧义，并探讨以词素为基础的标记方案的可行性和性能。

Abstract

In the paper, we propose a novel way of improving named entity recognition in the korean language using its language-specific features. Wh

named entity recognition korean language morpheme-based scheme conll-u format language-specific features

发现论文，激发创造

基于音节的韩语单词嵌入技术

通过卷积神经网络（CNN）构建模型，使用音节数组来代替单个字符，成功的实现了韩语词汇的形态学表征，比传统的 Skip-gram 模型表现更优，且具备良好的鲁棒性。

Aug, 2017

通过语言学信息的次词单位分词和次字符分解来提升韩文 NLP 任务

我们介绍了一种考虑词素的子词切分方法，利用字符的分解方法来解决字节对编码（BPE）在韩语中应用所面临的挑战，韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型（PLMs）中平衡了语言准确性和计算效率。我们的评估结果显示，该技术在整体上表现良好，显著提高了 NIKL-CoLA 句法任务的结果。这表明融合词素类型信息可以增强语言模型的句法和语义能力，表示采用更多的语言洞察力可以进一步提高性能，超越标准的形态分析。

Nov, 2023

韩语形态分析和词性标注的丰富字符级信息

本研究提出了一种基于多阶段行动的模型，可对韩语进行形态学转换和词性标注，使用双向长短时记忆网络模型对 Sejong 韩国语语料库实现了词和句子级别的标记精度，达到了无先验语言知识的同类模型的最新交状态。

Jun, 2018

K-UniMorph：韩国通用形态学及其特征模式

我们为韩语提出了一份新的通用形态学数据集，名为 K-UniMorph，涉及韩语的形态学范例，包括动词结束的语法标准、提取屈折形式的方法和生成形态结构的过程，同时采用了来自 Sylak-Glassman（2015 年）和 Sylak-Glassman（2016 年）的形态特征模式。

May, 2023

自动句法特征在越南命名实体识别中的重要性

本论文利用双向长短时记忆（Bi-LSTM）神经网络结合自动语法特征和词嵌入，提出了一种越南命名实体识别系统，其在 2016 年由越南语言与语音处理社区（VLSP）组织的评估中实现了 92.05％的综合 F1 分数，远超过先前的命名实体识别系统。

May, 2017

通过联合学习歧义形态标记来提升命名实体识别

本研究提出了一种模型，通过联合学习 NER 和 MD 标签器来减轻需要 MD 工具的需求，并且可以在不同语言之间独立进行，实现了命名实体识别性能的提高和竞争性的形态消歧定位器表现。

Jul, 2018

另一种针对韩语的通用依存关系格式

本研究提出了基于单词形态的韩语句法分析方案，并将其应用于通用依存结构。我们开发了自动转换脚本，证明了该方案与韩语单词嵌入的高效性，并通过统计和神经模型证明了该方案的有效性。

Sep, 2022

命名实体和形态学的神经建模 (NEMO^2)

通过调查一个新的 NER 基准，我们研究了现代希伯来语中的 NER。结果表明，显式建模形态的边界可以提高 NER 性能，而一个新的混合体系结构极大地超越了标准流水线，在这个流水线中形态分解严格先于 NER，为希伯来语 NER 和希伯来语形态分解任务设置了新的性能基准。

Jul, 2020

命名实体识别的神经网络结构

本文介绍基于双向 LSTM 和条件随机场，以及基于转移的方法的两种新的神经网络模型，这些模型不依赖于领域特定的知识和语言。通过使用监督语料库和未标注语料库，字符表示和无监督的学习表示，这些模型在四种语言中实现了名词实体识别的最先进性能。

Mar, 2016

使用汉字对命名实体进行识别

本篇论文提出一种运用中文字符字形并覆盖了一些语义信息的 CNN 模型进行命名实体识别，该模型取得了比使用传统特征的模型更好的成果，提升了命名实体识别的效率。

Sep, 2019