Apr, 2024

L3Cube-MahaNews:马拉地语基于新闻的短文本和长文档分类数据集

TL;DR我们介绍了 L3Cube-MahaNews,这是一个关注新闻标题和文章的最大的监督式马拉地语文本分类语料库,包含超过 1.05L 条记录,分为 12 个不同类别的多样性范围。我们提供了使用最先进的预训练 BERT 模型在这些数据集上的详细统计数据和基线结果。在各个数据集上,单一语言的 MahaBERT 模型的性能都优于其他模型。这些资源也可用作马拉地语主题分类数据集或模型,并可在此 https URL 中公开获取。