Feb, 2022

L3Cube-MahaCorpus 和 MahaBERT:马拉提语单语语料库、马拉提 BERT 语言模型和资源

TL;DR该研究介绍了 L3Cube-MahaCorpus,这是一个从不同互联网来源抓取的马拉提语单语数据集,它包含 24.8M 句子和 289M 个记号。该研究基于这个数据集训练了多个模型,如 MahaBERT、MahaAlBERT、MahaRoBerta 和 MahaFT 等,并且展示了它们在下游任务中的有效性。这项工作是为了为马拉提语的开放资源建立一步。