比较开源阿拉伯语命名实体识别工具
自然语言处理中的命名实体识别(NER)是一项主要任务之一,本文介绍了一个基于 BERT 模型的用于阿拉伯语和 Arabizi 语言的网页命名实体识别器。该模型可以识别 50 个不同的实体类别,并在多个数据集上取得了高准确率,系统部署在用户友好的网页界面上供用户使用,并具备了使用 CAMeL Tools 模型的能力。
Aug, 2023
本文全面回顾了阿拉伯语命名实体识别技术的发展,特别是深度学习和预训练语言模型的最新进展,介绍了传统阿拉伯语 NER 系统和最新发展的深度学习方法,并指出了与其他语言 NER 技术的差距,为阿拉伯语 NER 未来的发展方向提供了参考。
Feb, 2023
本文提供了 Wojood(一个阿拉伯嵌套命名实体识别语料库)。该语料库包括约 550K 个现代标准阿拉伯语(MSA)和方言标记,手动注释了 21 种实体类型,包括人物,组织,地点,事件和日期,并注释了嵌套实体而非通常的扁平注释。该数据包含约 75K 个实体,其中 22.5%是嵌套实体。该文提供的模型利用多任务学习和 AraBERT(阿拉伯 BERT)对数据进行训练,总体微 F1 得分为 0.884。我们的语料库,注释指南,源代码和预训练模型均可公开获取。
May, 2022
本文介绍一种使用 BIOES 格式标记具有超过 36,000 个数据记录的阿拉伯语命名实体识别数据集,并使用 LSTM 和 GRU 进行建模的方法, 取得了大约 80%的良好成果,同时介绍了使用 Trax 和 Colab 平台的新库。
Apr, 2023
比较了众包工作者和七个自然语言处理工具在命名实体识别和实体级情感分析两个重要 NLP 任务中的准确性,并测试了几个商业和开源工具,实验结果表明,在我们的政治推文数据集中,最准确的 NER 系统谷歌云 NL 表现几乎与众包工作者一样,但最准确的 ELS 分析系统 TensiStrength 的准确性与众包工作者的准确性相差很大,超过 30 个百分点。
Feb, 2020
本文通过使用不同的预训练语言模型(BERT,SciBERT 和 XLM-R)提出了三个方法来解决学术出版物中软件提及检测的子任务 I。我们的最佳系统通过一个三阶段框架来解决命名实体识别问题,实验证明我们的方法在官方数据集上取得了竞争性的性能,超过了其他参赛队伍和我们的替代方法,基于 XLM-R 模型的框架达到了 67.80% 的加权 F1 得分,在软件提及识别任务中获得了第三名。
Apr, 2024
本文使用预训练的深度双向网络 Google BERT,建立了一个用于波斯语命名实体识别的模型,并在 CONLL 2003 评测任务中获得了较高的成绩。
Mar, 2020
本文重点研究了语言代码转换下社交媒体上的命名实体识别 (NER) 问题,并将其分为两个子任务,分别针对英语 - 西班牙语 (ENG-SPA) 和现代标准阿拉伯语 - 埃及语 (MSA-EGY) 语言对。使用 Twitter 数据和 9 种实体类型建立了一个新的数据集,用于 code-switched NER 基准测试。最终的比赛得分分别为 63.76% 和 71.61%。本文还讨论了参与者提交方案中最常见的挑战。
Jun, 2019
通过对 28 种已发布系统的调查,我们在三个公开可用的语料库上深入分析了五种不同实体类型的性能比较,发现 BTM 工具在异构数据集上的性能明显低于同质数据集中的结果,表明在野外应用中 BTM 工具的性能会下降,需要进一步的研究以增强其稳定性。
Feb, 2024