ANEC:一个阿姆哈拉语命名实体语料库及基于 Transformer 的识别器
自然语言处理中的命名实体识别(NER)是一项主要任务之一,本文介绍了一个基于 BERT 模型的用于阿拉伯语和 Arabizi 语言的网页命名实体识别器。该模型可以识别 50 个不同的实体类别,并在多个数据集上取得了高准确率,系统部署在用户友好的网页界面上供用户使用,并具备了使用 CAMeL Tools 模型的能力。
Aug, 2023
本文介绍了我们参加 SemEval-2022 多语言复杂命名实体识别英文赛道的基于 Transformer 预训练模型的简单有效基准系统,取得了 72.50% 的 F1 得分,同时讨论了通过实体链接进行数据增强的方法。
Feb, 2022
本文全面回顾了阿拉伯语命名实体识别技术的发展,特别是深度学习和预训练语言模型的最新进展,介绍了传统阿拉伯语 NER 系统和最新发展的深度学习方法,并指出了与其他语言 NER 技术的差距,为阿拉伯语 NER 未来的发展方向提供了参考。
Feb, 2023
本研究探索了孟加拉命名实体识别领域的现有研究状况,找出了当前技术和数据集所面临的限制,并提出通过使用新颖的 Gazetteer 和先进的自然语言处理工具来改善命名实体识别的性能。
Jan, 2024
本文研究了一种基于多语言 BERT 的单一命名实体识别模型,使用多任务学习和分块更新规则等正则化策略优化模型,并证明在多种语言数据集上表现优于专注于单一语言模型,并能够进行零样本预测。
Nov, 2019
本文使用预训练的深度双向网络 Google BERT,建立了一个用于波斯语命名实体识别的模型,并在 CONLL 2003 评测任务中获得了较高的成绩。
Mar, 2020
本文介绍了在 BanglaCoNER 数据集上使用条件随机场(CRF)和微调变压器模型(如 BanglaBERT)的两种方法来解决 Bangla 复杂命名实体识别挑战的获胜解决方案。 深入探究了数据集,发现该数据集具有 7 个不同的 NER 标记,具有英语单词的明显存在,表明该数据集是合成的。同时,我们实验证明了基于深度学习的模型是自然语言处理中更有效的模型之一,特别是在 CNER 任务中。我们的 fine-tuned BanglaBERT(large)模型在验证集上实现 F1 Score 为 0.79。
Mar, 2023
本文介绍一种使用 BIOES 格式标记具有超过 36,000 个数据记录的阿拉伯语命名实体识别数据集,并使用 LSTM 和 GRU 进行建模的方法, 取得了大约 80%的良好成果,同时介绍了使用 Trax 和 Colab 平台的新库。
Apr, 2023
本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER),使用 base-BERT,RoBERTa 和 AlBERT 等变体进行了基准测试,并在不同单语和多语 Transformer 模型之间进行了详细比较,发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳,而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。
Mar, 2022
本文提供了基于维基百科、新闻句子等数据集训练的 Armenian 命名实体识别模型,以及 50~300 维的 GloVe 词向量模型,并给出相应实验结果。
Oct, 2018