比较开源阿拉伯语命名实体识别工具

May, 2022

比较开源阿拉伯语命名实体识别工具

Comparing Open Arabic Named Entity Recognition Tools

Abdullah Aldumaykhi, Saad Otai, Abdulkareem Alsudais

TL;DR该论文比较和评估了三种开放式阿拉伯命名实体识别工具的性能，并集成了这三种工具的结果来识别 COVID-19 相关文章中的命名实体，研究结果表明 CAMeL 在人名和组织名的识别上具有更高的精确度值，而在综合 F1 分数和召回率方面，将三种工具的结果合并可以获得更好的效果。

Abstract

The main objective of this paper is to compare and evaluate the performances of three open arabic ner tools: camel, hatmi, and

arabic ner camel hatmi stanza covid-19

发现论文，激发创造

基于 Transformer 的 ANER：阿拉伯语和阿拉伯文转写命名实体识别

自然语言处理中的命名实体识别（NER）是一项主要任务之一，本文介绍了一个基于 BERT 模型的用于阿拉伯语和 Arabizi 语言的网页命名实体识别器。该模型可以识别 50 个不同的实体类别，并在多个数据集上取得了高准确率，系统部署在用户友好的网页界面上供用户使用，并具备了使用 CAMeL Tools 模型的能力。

Aug, 2023

阿拉伯命名实体识别综述：历史、最新进展和未来趋势

本文全面回顾了阿拉伯语命名实体识别技术的发展，特别是深度学习和预训练语言模型的最新进展，介绍了传统阿拉伯语 NER 系统和最新发展的深度学习方法，并指出了与其他语言 NER 技术的差距，为阿拉伯语 NER 未来的发展方向提供了参考。

Feb, 2023

Wojood：基于 BERT 的嵌套阿拉伯语命名实体语料库和识别

本文提供了 Wojood（一个阿拉伯嵌套命名实体识别语料库）。该语料库包括约 550K 个现代标准阿拉伯语（MSA）和方言标记，手动注释了 21 种实体类型，包括人物，组织，地点，事件和日期，并注释了嵌套实体而非通常的扁平注释。该数据包含约 75K 个实体，其中 22.5％是嵌套实体。该文提供的模型利用多任务学习和 AraBERT（阿拉伯 BERT）对数据进行训练，总体微 F1 得分为 0.884。我们的语料库，注释指南，源代码和预训练模型均可公开获取。

May, 2022

使用新数据集的 LSTM 和 GRU 在阿拉伯语言命名实体识别中的应用

本文介绍一种使用 BIOES 格式标记具有超过 36,000 个数据记录的阿拉伯语命名实体识别数据集，并使用 LSTM 和 GRU 进行建模的方法，取得了大约 80％的良好成果，同时介绍了使用 Trax 和 Colab 平台的新库。

Apr, 2023

众包工作者与自然语言处理工具在政治推文的命名实体识别和情感分析方面的性能比较

比较了众包工作者和七个自然语言处理工具在命名实体识别和实体级情感分析两个重要 NLP 任务中的准确性，并测试了几个商业和开源工具，实验结果表明，在我们的政治推文数据集中，最准确的 NER 系统谷歌云 NL 表现几乎与众包工作者一样，但最准确的 ELS 分析系统 TensiStrength 的准确性与众包工作者的准确性相差很大，超过 30 个百分点。

Feb, 2020

基于 BERTology 模型的三阶段框架下的软件提及识别（SOMD 2024）

本文通过使用不同的预训练语言模型（BERT，SciBERT 和 XLM-R）提出了三个方法来解决学术出版物中软件提及检测的子任务 I。我们的最佳系统通过一个三阶段框架来解决命名实体识别问题，实验证明我们的方法在官方数据集上取得了竞争性的性能，超过了其他参赛队伍和我们的替代方法，基于 XLM-R 模型的框架达到了 67.80% 的加权 F1 得分，在软件提及识别任务中获得了第三名。

Apr, 2024

使用 BERT 的波斯语命名实体识别模型 Beheshti-NER

本文使用预训练的深度双向网络 Google BERT，建立了一个用于波斯语命名实体识别的模型，并在 CONLL 2003 评测任务中获得了较高的成绩。

Mar, 2020

联合语音翻译和命名实体识别

本篇论文提出了多任务模型将直接语音翻译和命名实体识别相结合，并与传统串行方法进行了对比，在不降低翻译质量的情况下，在命名实体识别任务上显著提高了性能。

Oct, 2022

CALCS 2018 共享任务：混合语言数据中的命名实体识别概述

本文重点研究了语言代码转换下社交媒体上的命名实体识别 (NER) 问题，并将其分为两个子任务，分别针对英语 - 西班牙语 (ENG-SPA) 和现代标准阿拉伯语 - 埃及语 (MSA-EGY) 语言对。使用 Twitter 数据和 9 种实体类型建立了一个新的数据集，用于 code-switched NER 基准测试。最终的比赛得分分别为 63.76% 和 71.61%。本文还讨论了参与者提交方案中最常见的挑战。

Jun, 2019

跨语料库评估中的 HunFlair2 命名实体识别和规范化工具

通过对 28 种已发布系统的调查，我们在三个公开可用的语料库上深入分析了五种不同实体类型的性能比较，发现 BTM 工具在异构数据集上的性能明显低于同质数据集中的结果，表明在野外应用中 BTM 工具的性能会下降，需要进一步的研究以增强其稳定性。

Feb, 2024