使用 BERT 的波斯语命名实体识别模型 Beheshti-NER
本文提出了一种用于波斯语的单语 BERT 模型(ParsBERT),并采用庞大的数据集进行预训练和各种自然语言处理任务,证明该模型相对于其他结构和多语言模型具有更好的性能。
May, 2020
本文研究了一种基于多语言 BERT 的单一命名实体识别模型,使用多任务学习和分块更新规则等正则化策略优化模型,并证明在多种语言数据集上表现优于专注于单一语言模型,并能够进行零样本预测。
Nov, 2019
本文全面回顾了阿拉伯语命名实体识别技术的发展,特别是深度学习和预训练语言模型的最新进展,介绍了传统阿拉伯语 NER 系统和最新发展的深度学习方法,并指出了与其他语言 NER 技术的差距,为阿拉伯语 NER 未来的发展方向提供了参考。
Feb, 2023
自然语言处理中的命名实体识别(NER)是一项主要任务之一,本文介绍了一个基于 BERT 模型的用于阿拉伯语和 Arabizi 语言的网页命名实体识别器。该模型可以识别 50 个不同的实体类别,并在多个数据集上取得了高准确率,系统部署在用户友好的网页界面上供用户使用,并具备了使用 CAMeL Tools 模型的能力。
Aug, 2023
使用 BERT 和 transformer 层的简单和有效的 Named Entity Recognition 方法在计算机科学和生物医学领域的三个基准数据集上优于当前最先进技术,无需外部资源或特定数据增强。
Mar, 2022
本研究探索了孟加拉命名实体识别领域的现有研究状况,找出了当前技术和数据集所面临的限制,并提出通过使用新颖的 Gazetteer 和先进的自然语言处理工具来改善命名实体识别的性能。
Jan, 2024
本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER),使用 base-BERT,RoBERTa 和 AlBERT 等变体进行了基准测试,并在不同单语和多语 Transformer 模型之间进行了详细比较,发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳,而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。
Mar, 2022
本研究 fine-tune 了一个受欢迎的德语 BERT 语言模型,用于 Legal Entity Recognition(LER)数据集,结果表明我们的模型在 LER 任务上表现比 BiLSTM-CRF+ 模型更优,并通过 HuggingFace 对外公开。
Mar, 2023
通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构,我们提出了一个单可训练的命名实体识别(NER)模型,该模型在七个公共生物医学基准测试中获得了新的最优结果,而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供,并且可以扩展以支持其他人类语言,而不需要更改代码。
Nov, 2020
本文介绍了一种基于大规模语言模型的命名实体识别预训练方法,通过构建大型高质量命名实体语料库,最终得到的 NER-BERT 模型在九个不同领域的低资源场景下明显优于其他模型。
Dec, 2021