L3CubeMahaSent: 一份基于马拉地语推文的情感分析数据集

ACLMar, 2021

L3CubeMahaSent: 一份基于马拉地语推文的情感分析数据集

L3CubeMahaSent: A Marathi Tweet-based Sentiment Analysis Dataset

Atharva Kulkarni, Meet Mandhane, Manali Likhitkar, Gayatri Kshirsagar, Raviraj Joshi

TL;DR本文介绍了用于 Marathi 语言情感分析的第一个主要公开数据集 L3CubeMahaSent，该数据集包括大约 16,000 条来自名人推特账户的推文，使用 CNN、LSTM、ULMFiT 和 BERT 等深度学习模型对其进行了基础分类结果的统计。

Abstract

sentiment analysis is one of the most fundamental tasks in Natural Language Processing. Popular languages like English, Arabic, Russian, Mandarin, and also Indian languages such as Hindi, Bengali, Tamil have seen a significant amount of work in this area. However, the →

sentiment analysis marathi language dataset l3cubemahasent deep learning models

发现论文，激发创造

L3Cube-MahaSent-MD: 多域马拉地语情感分析数据集和 Transformer 模型

介绍了 L3Cube-MahaSent-MD 数据集，它是第一个综合的多域情感分析数据集，可用于印度情感领域，包括 4 种不同来源的标注语料（60,000 个样本），涵盖了 3 种不同情感（积极、消极和中性），使用 MahaBERT 模型获得最佳准确性表现。

Jun, 2023

L3Cube-MahaHate: 基于推特的马拉提语仇恨言论检测数据集与 BERT 模型

该研究介绍了 L3Cube-MahaHate，这是首个主要的马拉地语恶意言论数据集，收集自 Twitter 上的超过 25000 条不同推文，并基于卷积神经网络、LSTM 和 Transformers 构建基线分类模型，结果表明单语言模型胜于多语言模型，其中 MahaBERT 模型在 L3Cube-MahaHate 语料库上表现最佳。

Mar, 2022

L3Cube-MahaNLP: 马拉地语自然语言处理数据集、模型和库

L3Cube-MahaNLP 旨在为印度第三流行的马拉地语构建 NLP 资源和库。该论文提出了针对情感分析、实体识别和仇恨言论检测的数据集和变形器模型，并发布了一个单语马拉地语语料库。作者的目标是为马拉地语准备有用的资源，并提供 MahaCorpus、MahaSent、MahaNER 和 MahaHate 数据集及其相应的 MahaBERT 模型。

May, 2022

L3Cube-MahaNews：马拉地语基于新闻的短文本和长文档分类数据集

我们介绍了 L3Cube-MahaNews，这是一个关注新闻标题和文章的最大的监督式马拉地语文本分类语料库，包含超过 1.05L 条记录，分为 12 个不同类别的多样性范围。我们提供了使用最先进的预训练 BERT 模型在这些数据集上的详细统计数据和基线结果。在各个数据集上，单一语言的 MahaBERT 模型的性能都优于其他模型。这些资源也可用作马拉地语主题分类数据集或模型，并可在此 https URL 中公开获取。

Apr, 2024

L3Cube-MahaCorpus 和 MahaBERT：马拉提语单语语料库、马拉提 BERT 语言模型和资源

该研究介绍了 L3Cube-MahaCorpus，这是一个从不同互联网来源抓取的马拉提语单语数据集，它包含 24.8M 句子和 289M 个记号。该研究基于这个数据集训练了多个模型，如 MahaBERT、MahaAlBERT、MahaRoBerta 和 MahaFT 等，并且展示了它们在下游任务中的有效性。这项工作是为了为马拉提语的开放资源建立一步。

Feb, 2022

L3Cube-MahaSocialNER：基于社交媒体的马拉地语命名实体识别数据集和 BERT 模型

该研究论文介绍了 L3Cube-MahaSocialNER 数据集，这是第一个也是最大的社交媒体数据集，专门用于马拉地语命名实体识别 (NER)。该数据集包含 18,000 个经过手工标记的句子，涵盖了八个实体类别，解决了社交媒体数据的挑战，包括非标准语言和非正式成语。研究评估了深度学习模型，包括 CNN、LSTM、BiLSTM 和 Transformer 模型，使用 IOB 和非 IOB 标记在单个数据集上取得了效果。结果表明，这些模型能够准确识别马拉地语非正式文本中的命名实体。L3Cube-MahaSocialNER 数据集提供以用户为中心的信息提取，并支持实时应用，为社交媒体平台上的舆情分析、新闻和营销提供了宝贵的资源。我们还展示了常规 NER 模型在社交 NER 测试集上的零样本结果较差，强调了需要更多的社交 NER 数据集。该数据集和模型已公开提供，网址为 https URL。

Dec, 2023

乌尔都语音与文本情感分析器

本研究提出了一个基于用户评价的新型多类乌尔都数据集，旨在为乌尔都情感分析构建手动注释的数据集，并建立基准结果。使用五种不同的词库和基于规则的算法，最终实验结果表明，Flair 的准确率为 70%，优于其他测试的算法。

Jul, 2022

低资源语言的鲁棒情感分析：数据增强方法的案例研究（以马拉地语为例）

本研究针对低资源语言马拉地语在情感分析领域存在的不足，提出了四种数据增强技术，包括释义、回译、基于 BERT 的随机词标替换、基于 GPT 的文本生成，这些方法在跨域准确性方面显著提升了性能，并可扩展到其他低资源语言和一般的文本分类任务。

Oct, 2023

我的 Boli：混合马拉地语 - 英语语料库，预训练语言模型和评估基准

本文介绍了一个新的程序混合（Code-mixed）语料库及预训练模型，为印度语言 Marathi 的程序混合研究奠定了基础，并提供了三个数据集用于下游任务。

Jun, 2023

SemEval-2020 任务 9：代码混合推文的情感分析概述

本文介绍了 SemEval-2020 任务 9 关于混合代码推文情感分析（SentiMix 2020）的结果，释放和描述了标记有单词级别语言识别和句子级别情感标签的 Hinglish（印地语 - 英语）和 Spanglish（西班牙语 - 英语）语料库。最好的表现是在 Hinglish 和 Spanglish 分别获得了 75.0％ F1 得分和 80.6％ F1 得分。观察到在比赛者中 BERT-like 模型和集合方法是最常见和成功的方法。

Aug, 2020