Dec, 2023

L3Cube-MahaSocialNER:基于社交媒体的马拉地语命名实体识别数据集和 BERT 模型

TL;DR该研究论文介绍了 L3Cube-MahaSocialNER 数据集,这是第一个也是最大的社交媒体数据集,专门用于马拉地语命名实体识别 (NER)。该数据集包含 18,000 个经过手工标记的句子,涵盖了八个实体类别,解决了社交媒体数据的挑战,包括非标准语言和非正式成语。研究评估了深度学习模型,包括 CNN、LSTM、BiLSTM 和 Transformer 模型,使用 IOB 和非 IOB 标记在单个数据集上取得了效果。结果表明,这些模型能够准确识别马拉地语非正式文本中的命名实体。L3Cube-MahaSocialNER 数据集提供以用户为中心的信息提取,并支持实时应用,为社交媒体平台上的舆情分析、新闻和营销提供了宝贵的资源。我们还展示了常规 NER 模型在社交 NER 测试集上的零样本结果较差,强调了需要更多的社交 NER 数据集。该数据集和模型已公开提供,网址为 https URL。