ANEC：一个阿姆哈拉语命名实体语料库及基于 Transformer 的识别器

Jul, 2022

ANEC：一个阿姆哈拉语命名实体语料库及基于 Transformer 的识别器

ANEC: An Amharic Named Entity Corpus and Transformer Based Recognizer

Ebrahim Chekol Jibril, A. Cüneyd Tantğ

TL;DR本研究基于双向长短时记忆和条件随机场层构建阿姆哈拉语命名实体识别系统，并通过合成少数类过采样技术减轻分类问题，最终获得 93％的 F_1 得分，成为阿姆哈拉语命名实体识别的新的最优结果。

Abstract

named entity recognition is an information extraction task that serves as a preprocessing step for other natural language processing tasks, such as machine translation, information retrieval, and question answering. Named entity recognition enables the identification of proper names as

named entity recognition semitic languages amharic long short-term memory f_1 score

发现论文，激发创造

基于 Transformer 的 ANER：阿拉伯语和阿拉伯文转写命名实体识别

自然语言处理中的命名实体识别（NER）是一项主要任务之一，本文介绍了一个基于 BERT 模型的用于阿拉伯语和 Arabizi 语言的网页命名实体识别器。该模型可以识别 50 个不同的实体类别，并在多个数据集上取得了高准确率，系统部署在用户友好的网页界面上供用户使用，并具备了使用 CAMeL Tools 模型的能力。

Aug, 2023

LMN 在 SemEval-2022 任务 11 中：基于 Transformer 的英文命名实体识别系统

本文介绍了我们参加 SemEval-2022 多语言复杂命名实体识别英文赛道的基于 Transformer 预训练模型的简单有效基准系统，取得了 72.50% 的 F1 得分，同时讨论了通过实体链接进行数据增强的方法。

Feb, 2022

阿拉伯命名实体识别综述：历史、最新进展和未来趋势

本文全面回顾了阿拉伯语命名实体识别技术的发展，特别是深度学习和预训练语言模型的最新进展，介绍了传统阿拉伯语 NER 系统和最新发展的深度学习方法，并指出了与其他语言 NER 技术的差距，为阿拉伯语 NER 未来的发展方向提供了参考。

Feb, 2023

利用 Gazetteer 增强的 BanglaBERT 语义嵌入 K-Means 注入 CRF 模型的孟加拉命名实体识别

本研究探索了孟加拉命名实体识别领域的现有研究状况，找出了当前技术和数据集所面临的限制，并提出通过使用新颖的 Gazetteer 和先进的自然语言处理工具来改善命名实体识别的性能。

Jan, 2024

使用 BERT 实现通用语言命名实体识别

本文研究了一种基于多语言 BERT 的单一命名实体识别模型，使用多任务学习和分块更新规则等正则化策略优化模型，并证明在多种语言数据集上表现优于专注于单一语言模型，并能够进行零样本预测。

Nov, 2019

使用 BERT 的波斯语命名实体识别模型 Beheshti-NER

本文使用预训练的深度双向网络 Google BERT，建立了一个用于波斯语命名实体识别的模型，并在 CONLL 2003 评测任务中获得了较高的成绩。

Mar, 2020

BanglaCoNER：面向健壮的孟加拉语复杂命名实体识别

本文介绍了在 BanglaCoNER 数据集上使用条件随机场（CRF）和微调变压器模型（如 BanglaBERT）的两种方法来解决 Bangla 复杂命名实体识别挑战的获胜解决方案。深入探究了数据集，发现该数据集具有 7 个不同的 NER 标记，具有英语单词的明显存在，表明该数据集是合成的。同时，我们实验证明了基于深度学习的模型是自然语言处理中更有效的模型之一，特别是在 CNER 任务中。我们的 fine-tuned BanglaBERT（large）模型在验证集上实现 F1 Score 为 0.79。

Mar, 2023

使用新数据集的 LSTM 和 GRU 在阿拉伯语言命名实体识别中的应用

本文介绍一种使用 BIOES 格式标记具有超过 36,000 个数据记录的阿拉伯语命名实体识别数据集，并使用 LSTM 和 GRU 进行建模的方法，取得了大约 80％的良好成果，同时介绍了使用 Trax 和 Colab 平台的新库。

Apr, 2023

汉迪语和马拉提语命名实体识别中的单语 BERT 与多语 BERT 对比研究

本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER)，使用 base-BERT，RoBERTa 和 AlBERT 等变体进行了基准测试，并在不同单语和多语 Transformer 模型之间进行了详细比较，发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳，而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。

Mar, 2022

pioNER：用于亚美尼亚命名实体识别的数据集和基准

本文提供了基于维基百科、新闻句子等数据集训练的 Armenian 命名实体识别模型，以及 50~300 维的 GloVe 词向量模型，并给出相应实验结果。

Oct, 2018