May, 2022

Wojood:基于 BERT 的嵌套阿拉伯语命名实体语料库和识别

TL;DR本文提供了 Wojood(一个阿拉伯嵌套命名实体识别语料库)。该语料库包括约 550K 个现代标准阿拉伯语(MSA)和方言标记,手动注释了 21 种实体类型,包括人物,组织,地点,事件和日期,并注释了嵌套实体而非通常的扁平注释。该数据包含约 75K 个实体,其中 22.5%是嵌套实体。该文提供的模型利用多任务学习和 AraBERT(阿拉伯 BERT)对数据进行训练,总体微 F1 得分为 0.884。我们的语料库,注释指南,源代码和预训练模型均可公开获取。