L3Cube-MahaNER: 一个马拉地语的命名实体识别数据集和 BERT 模型
该研究论文介绍了 L3Cube-MahaSocialNER 数据集,这是第一个也是最大的社交媒体数据集,专门用于马拉地语命名实体识别 (NER)。该数据集包含 18,000 个经过手工标记的句子,涵盖了八个实体类别,解决了社交媒体数据的挑战,包括非标准语言和非正式成语。研究评估了深度学习模型,包括 CNN、LSTM、BiLSTM 和 Transformer 模型,使用 IOB 和非 IOB 标记在单个数据集上取得了效果。结果表明,这些模型能够准确识别马拉地语非正式文本中的命名实体。L3Cube-MahaSocialNER 数据集提供以用户为中心的信息提取,并支持实时应用,为社交媒体平台上的舆情分析、新闻和营销提供了宝贵的资源。我们还展示了常规 NER 模型在社交 NER 测试集上的零样本结果较差,强调了需要更多的社交 NER 数据集。该数据集和模型已公开提供,网址为 https URL。
Dec, 2023
本文研究低资源印度语言 Hindi 和 Marathi 的命名实体识别 (NER),使用 base-BERT,RoBERTa 和 AlBERT 等变体进行了基准测试,并在不同单语和多语 Transformer 模型之间进行了详细比较,发现 MahaRoBERTa 单语模型在 Marathi NER 方面表现最佳,而多语言 XLM-RoBERTa 在 Hindi NER 方面表现最佳。文中还进行了跨语言评估和提出了简单基线。
Mar, 2022
L3Cube-MahaNLP 旨在为印度第三流行的马拉地语构建 NLP 资源和库。该论文提出了针对情感分析、实体识别和仇恨言论检测的数据集和变形器模型,并发布了一个单语马拉地语语料库。作者的目标是为马拉地语准备有用的资源,并提供 MahaCorpus、MahaSent、MahaNER 和 MahaHate 数据集及其相应的 MahaBERT 模型。
May, 2022
该研究介绍了 L3Cube-MahaCorpus,这是一个从不同互联网来源抓取的马拉提语单语数据集,它包含 24.8M 句子和 289M 个记号。该研究基于这个数据集训练了多个模型,如 MahaBERT、MahaAlBERT、MahaRoBerta 和 MahaFT 等,并且展示了它们在下游任务中的有效性。这项工作是为了为马拉提语的开放资源建立一步。
Feb, 2022
我们介绍了 L3Cube-MahaNews,这是一个关注新闻标题和文章的最大的监督式马拉地语文本分类语料库,包含超过 1.05L 条记录,分为 12 个不同类别的多样性范围。我们提供了使用最先进的预训练 BERT 模型在这些数据集上的详细统计数据和基线结果。在各个数据集上,单一语言的 MahaBERT 模型的性能都优于其他模型。这些资源也可用作马拉地语主题分类数据集或模型,并可在此 https URL 中公开获取。
Apr, 2024
论文探究了如何在低资源语言如印地语和马拉地语中通过适应 BERT 模型,训练监督学习的 NER 模型,并比较了多语言模型与单语言模型的性能,研究结果表明多语言模型可以提高 NER 的精度。
Jun, 2023
该论文发布了一份标准符合的,包含 109,146 句子和 2,220,856 个标记的 Hindi NER 数据集,并使用不同的语言模型对其进行了评估,表明其对于 NLP 在 Hindi 方面有着重要的作用。
Apr, 2022
对印度语言进行多语言命名实体识别的挑战分析及旨在应对其的技术的提出。同时,提供了包括两个主要印度语言家族中四种印度语言在内的人工标注命名实体语料库,并在该数据集上对多语言模型进行了微调,平均 F1 得分达到 0.80。在印度语言的完全未见基准数据集上实现了可比的性能,证实了我们模型的实用性。
May, 2024
本文介绍了使用合成的 NLI 和 STS 数据集,针对印地语和马拉地语这两种低资源语言,使用 NLI 预训练和 STSb 微调策略训练生成的高性能 Sentence-BERT 模型,并在下游文本分类和相似性任务中进行了评估。同时,提出了基于不同模型的句子嵌入的比较分析,并释放了 L3Cube-MahaSBERT 和 HindSBERT。
Nov, 2022
我们研究了在语言资源匮乏情况下对名词实体识别(NER)系统进行改进的方法,并通过将 BERT-based 子词标记器集成到传统的 CNN/LSTM 模型中,展示了提高其准确性的有效途径。在 Marathi 这种低资源语言环境下的案例研究中,我们发现使用子词标记化对 NER 的重要性,并呈现了构建高效 NLP 系统的研究。
Dec, 2023