尼泊尔语命名实体识别

Aug, 2019

Named Entity Recognition for Nepali Language

Oyesh Mann Singh, Ankur Padia, Anupam Joshi

TL;DR本文提出了一种基于神经网络的尼泊尔语命名实体识别模型，采用最新的基于字形的架构，无需手工制作特征和数据预处理，相对于基于特征的 SVM 模型以及针对尼泊尔语以外语言开发的最新神经模型，获得了 33% 至 50% 的相对改进和高达 10% 的改进。

Abstract

named entity recognition have been studied for different languages like English, German, Spanish and many others but no study have focused on Nepali language. In this paper we propose a neural based Nepali NER using latest state-of-the-art architecture based on grapheme-level which doe

named entity recognition nepali language neural-based model grapheme-level architecture improvement

发现论文，激发创造

为印度语言优化预训练的命名实体识别模型

对印度语言进行多语言命名实体识别的挑战分析及旨在应对其的技术的提出。同时，提供了包括两个主要印度语言家族中四种印度语言在内的人工标注命名实体语料库，并在该数据集上对多语言模型进行了微调，平均 F1 得分达到 0.80。在印度语言的完全未见基准数据集上实现了可比的性能，证实了我们模型的实用性。

May, 2024

CL-NERIL: 一个用于印度语言命名实体识别的跨语言模型

通过利用英印平行语料库和英文命名实体识别数据集，在低资源背景下，提出了一种用于印度语言的命名实体识别端到端框架。该框架包括一种注释投影方法，利用源语言（英语）数据上的单词对齐分数和命名实体识别标记预测置信度得分生成目标印度语言中的弱标签数据，并在 Teacher-Student 模型的伪标签以及对生成的弱标签数据的预测上联合优化。对三种印度语言（印地语、孟加拉语和古吉拉特语）的手动注释测试集进行了评估。实证结果显示，在所有语言上，与零 - shot 迁移学习模型相比，所提出的框架表现出至少 10％的性能提升，这表明生成的目标印度语言中的弱标签数据可以很好地补充已经有良好注释的源语言数据来提高性能。

Nov, 2021

汉迪语和马拉提语命名实体识别中的单语 BERT 与多语 BERT 对比研究

本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER)，使用 base-BERT，RoBERTa 和 AlBERT 等变体进行了基准测试，并在不同单语和多语 Transformer 模型之间进行了详细比较，发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳，而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。

Mar, 2022

利用 Gazetteer 增强的 BanglaBERT 语义嵌入 K-Means 注入 CRF 模型的孟加拉命名实体识别

本研究探索了孟加拉命名实体识别领域的现有研究状况，找出了当前技术和数据集所面临的限制，并提出通过使用新颖的 Gazetteer 和先进的自然语言处理工具来改善命名实体识别的性能。

Jan, 2024

零资源跨语言命名实体识别

本文提出一种基于词级对抗训练、参数共享和特征增强的无监督跨语言命名实体识别模型，可在不依靠双语词典或平行数据的情况下，将命名实体知识从一种语言转移到另一种语言。通过对五种不同语言的实验表明，该模型的有效性优于现有模型，并为每个语言对设置了新的 SOTA。

Nov, 2019

运用辅助语言和迁移学习技术提高低资源实体命名识别

论文探究了如何在低资源语言如印地语和马拉地语中通过适应 BERT 模型，训练监督学习的 NER 模型，并比较了多语言模型与单语言模型的性能，研究结果表明多语言模型可以提高 NER 的精度。

Jun, 2023

HiNER：一个大规模的印地语命名实体识别数据集

该论文发布了一份标准符合的，包含 109,146 句子和 2,220,856 个标记的 Hindi NER 数据集，并使用不同的语言模型对其进行了评估，表明其对于 NLP 在 Hindi 方面有着重要的作用。

Apr, 2022

命名实体识别的神经网络结构

本文介绍基于双向 LSTM 和条件随机场，以及基于转移的方法的两种新的神经网络模型，这些模型不依赖于领域特定的知识和语言。通过使用监督语料库和未标注语料库，字符表示和无监督的学习表示，这些模型在四种语言中实现了名词实体识别的最先进性能。

Mar, 2016

跨文化姓名识别

该研究旨在改进个人姓名的识别，在识别不同文化背景下的姓名方面，通过实验比较结合字符和词的输入模型与传统的 NER 模型，发现该模型表现更好且可能提高准确率。

Jan, 2024

POLYGLOT-NER：大规模多语言命名实体识别

本研究展示如何使用维基百科和 Freebase 自动构建 40 种主要语言的多语言命名实体识别注释器，不需要任何人工标注数据集或语言特定的资源，通过生成分布式词表示，达到竞争性的表现，并提出了一种新的远程评估方法。

Oct, 2014