L3Cube-HindBERT 和 DevBERT:针对基于天城文的印地语和马拉提语的预训练 BERT Transformer 模型
本文介绍了使用合成的 NLI 和 STS 数据集,针对印地语和马拉地语这两种低资源语言,使用 NLI 预训练和 STSb 微调策略训练生成的高性能 Sentence-BERT 模型,并在下游文本分类和相似性任务中进行了评估。同时,提出了基于不同模型的句子嵌入的比较分析,并释放了 L3Cube-MahaSBERT 和 HindSBERT。
Nov, 2022
该研究介绍了 L3Cube-MahaCorpus,这是一个从不同互联网来源抓取的马拉提语单语数据集,它包含 24.8M 句子和 289M 个记号。该研究基于这个数据集训练了多个模型,如 MahaBERT、MahaAlBERT、MahaRoBerta 和 MahaFT 等,并且展示了它们在下游任务中的有效性。这项工作是为了为马拉提语的开放资源建立一步。
Feb, 2022
在本文中,我们使用 Marathi 语言的标准多语言模型和单语模型比较分析,通过五种不同的下游任务微调实验证明了单语 MahaBERT 模型的性能比多语言 BERT 变体更好。同时,我们还评估了来自这些模型的句子嵌入。
Apr, 2022
该论文提出了一种用于转换 vanilla multilingual BERT 模型成多语言句子 BERT 模型的简单有效方法,该方法使用合成语料库聚合并细调 vanilla multilingual BERT 模型的翻译 NLI 或 STS 数据集,展示了多语言 BERT 模型的跨语言学习能力,该方法在 10 种主要的印度语言以及德语和法语这些非印欧语系的语言上均取得了很好的效果,进而实现了首个针对印度语言 Hindi、Marathi、Kannada、Telugu、Malayalam、Tamil、Gujarati、Odia、Bengali 和 Punjabi 的多语言句子表示模型。
Apr, 2023
我们介绍了 L3Cube-MahaNews,这是一个关注新闻标题和文章的最大的监督式马拉地语文本分类语料库,包含超过 1.05L 条记录,分为 12 个不同类别的多样性范围。我们提供了使用最先进的预训练 BERT 模型在这些数据集上的详细统计数据和基线结果。在各个数据集上,单一语言的 MahaBERT 模型的性能都优于其他模型。这些资源也可用作马拉地语主题分类数据集或模型,并可在此 https URL 中公开获取。
Apr, 2024
L3Cube-MahaNLP 旨在为印度第三流行的马拉地语构建 NLP 资源和库。该论文提出了针对情感分析、实体识别和仇恨言论检测的数据集和变形器模型,并发布了一个单语马拉地语语料库。作者的目标是为马拉地语准备有用的资源,并提供 MahaCorpus、MahaSent、MahaNER 和 MahaHate 数据集及其相应的 MahaBERT 模型。
May, 2022
该研究介绍了 L3Cube-MahaHate,这是首个主要的马拉地语恶意言论数据集,收集自 Twitter 上的超过 25000 条不同推文,并基于卷积神经网络、LSTM 和 Transformers 构建基线分类模型,结果表明单语言模型胜于多语言模型,其中 MahaBERT 模型在 L3Cube-MahaHate 语料库上表现最佳。
Mar, 2022
本文首次提出 L3Cube-MahaNER,这是一份 Marathi 语言的命名实体识别的黄金标准数据集,使用了不同基于 CNN、LSTM、变压器的模型进行了基准测试,发现 MahaBERT 表现最佳。
Apr, 2022
本文介绍了一个新的程序混合(Code-mixed)语料库及预训练模型,为印度语言 Marathi 的程序混合研究奠定了基础,并提供了三个数据集用于下游任务。
Jun, 2023
该研究提供了一个用于在社交媒体平台上进行 Hindi-English 混合语言的研究数据和预训练模型,并证明这些模型在情感分析、词性标注、命名实体识别等任务中的有效性。
Apr, 2022