L3CubeMahaSent: 一份基于马拉地语推文的情感分析数据集
介绍了 L3Cube-MahaSent-MD 数据集,它是第一个综合的多域情感分析数据集,可用于印度情感领域,包括 4 种不同来源的标注语料(60,000 个样本),涵盖了 3 种不同情感(积极、消极和中性),使用 MahaBERT 模型获得最佳准确性表现。
Jun, 2023
该研究介绍了 L3Cube-MahaHate,这是首个主要的马拉地语恶意言论数据集,收集自 Twitter 上的超过 25000 条不同推文,并基于卷积神经网络、LSTM 和 Transformers 构建基线分类模型,结果表明单语言模型胜于多语言模型,其中 MahaBERT 模型在 L3Cube-MahaHate 语料库上表现最佳。
Mar, 2022
L3Cube-MahaNLP 旨在为印度第三流行的马拉地语构建 NLP 资源和库。该论文提出了针对情感分析、实体识别和仇恨言论检测的数据集和变形器模型,并发布了一个单语马拉地语语料库。作者的目标是为马拉地语准备有用的资源,并提供 MahaCorpus、MahaSent、MahaNER 和 MahaHate 数据集及其相应的 MahaBERT 模型。
May, 2022
我们介绍了 L3Cube-MahaNews,这是一个关注新闻标题和文章的最大的监督式马拉地语文本分类语料库,包含超过 1.05L 条记录,分为 12 个不同类别的多样性范围。我们提供了使用最先进的预训练 BERT 模型在这些数据集上的详细统计数据和基线结果。在各个数据集上,单一语言的 MahaBERT 模型的性能都优于其他模型。这些资源也可用作马拉地语主题分类数据集或模型,并可在此 https URL 中公开获取。
Apr, 2024
该研究介绍了 L3Cube-MahaCorpus,这是一个从不同互联网来源抓取的马拉提语单语数据集,它包含 24.8M 句子和 289M 个记号。该研究基于这个数据集训练了多个模型,如 MahaBERT、MahaAlBERT、MahaRoBerta 和 MahaFT 等,并且展示了它们在下游任务中的有效性。这项工作是为了为马拉提语的开放资源建立一步。
Feb, 2022
该研究论文介绍了 L3Cube-MahaSocialNER 数据集,这是第一个也是最大的社交媒体数据集,专门用于马拉地语命名实体识别 (NER)。该数据集包含 18,000 个经过手工标记的句子,涵盖了八个实体类别,解决了社交媒体数据的挑战,包括非标准语言和非正式成语。研究评估了深度学习模型,包括 CNN、LSTM、BiLSTM 和 Transformer 模型,使用 IOB 和非 IOB 标记在单个数据集上取得了效果。结果表明,这些模型能够准确识别马拉地语非正式文本中的命名实体。L3Cube-MahaSocialNER 数据集提供以用户为中心的信息提取,并支持实时应用,为社交媒体平台上的舆情分析、新闻和营销提供了宝贵的资源。我们还展示了常规 NER 模型在社交 NER 测试集上的零样本结果较差,强调了需要更多的社交 NER 数据集。该数据集和模型已公开提供,网址为 https URL。
Dec, 2023
本研究提出了一个基于用户评价的新型多类乌尔都数据集,旨在为乌尔都情感分析构建手动注释的数据集,并建立基准结果。使用五种不同的词库和基于规则的算法,最终实验结果表明,Flair 的准确率为 70%,优于其他测试的算法。
Jul, 2022
本研究针对低资源语言马拉地语在情感分析领域存在的不足,提出了四种数据增强技术,包括释义、回译、基于 BERT 的随机词标替换、基于 GPT 的文本生成,这些方法在跨域准确性方面显著提升了性能,并可扩展到其他低资源语言和一般的文本分类任务。
Oct, 2023
本文介绍了一个新的程序混合(Code-mixed)语料库及预训练模型,为印度语言 Marathi 的程序混合研究奠定了基础,并提供了三个数据集用于下游任务。
Jun, 2023
本文介绍了 SemEval-2020 任务 9 关于混合代码推文情感分析(SentiMix 2020)的结果,释放和描述了标记有单词级别语言识别和句子级别情感标签的 Hinglish(印地语 - 英语)和 Spanglish(西班牙语 - 英语)语料库。最好的表现是在 Hinglish 和 Spanglish 分别获得了 75.0% F1 得分和 80.6% F1 得分。观察到在比赛者中 BERT-like 模型和集合方法是最常见和成功的方法。
Aug, 2020