L3Cube-IndicNews：印度语言的基于新闻的短文本和长文档分类数据集

Jan, 2024

L3Cube-IndicNews：印度语言的基于新闻的短文本和长文档分类数据集

L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages

Aishwarya Mirashi, Srushti Sonavane, Purva Lingayat, Tejas Padhiyar, Raviraj Joshi

TL;DR本研究介绍了 L3Cube-IndicNews，一个以新闻标题和文章为重点的多语种文本分类语料库，针对印度区域语言提供高质量的数据集。我们的工作集中在 10 种重要的 Indic 语言上，包括印地语、孟加拉语、马拉地语、泰卢固语、泰米尔语、古吉拉特语、卡纳达语、奥迪亚语、马拉雅拉姆语和旁遮普语。每个新闻数据集都包括 10 个或更多的新闻类别。L3Cube-IndicNews 提供了 3 个不同的数据集，针对不同的文档长度进行分类，分别是：包含新闻标题和新闻类别的 Short Headlines Classification (SHC) 数据集，包含整个新闻文章和新闻类别的 Long Document Classification (LDC) 数据集，以及包含新闻子文章和新闻类别的 Long Paragraph Classification (LPC) 数据集。我们在所有 3 个数据集上采用一致的标签，进行了深度基于长度的分析。我们使用 4 种不同的模型，包括单语 BERT、多语言 Indic 句子 BERT (IndicSBERT) 和 IndicBERT，对每个 Indic 语言数据集进行了评估。本研究在扩大可用的文本分类数据集方面做出了重要贡献，也为开发面向印度区域语言的主题分类模型提供了可能。由于各语言之间标签的高度重叠，这也是进行跨语言分析的极好资源。数据集和模型已公开共享于此 https URL。

Abstract

In this work, we introduce l3cube-indicnews, a multilingual text classification corpus aimed at curating a high-quality dataset for Indian regional languages, with a specific focus on news headlines and articles. We have centered our work on 10 prominent Indic languages, including Hind

l3cube-indicnews multilingual text classification indian regional languages news datasets indic language datasets

发现论文，激发创造

L3Cube-MahaNews：马拉地语基于新闻的短文本和长文档分类数据集

我们介绍了 L3Cube-MahaNews，这是一个关注新闻标题和文章的最大的监督式马拉地语文本分类语料库，包含超过 1.05L 条记录，分为 12 个不同类别的多样性范围。我们提供了使用最先进的预训练 BERT 模型在这些数据集上的详细统计数据和基线结果。在各个数据集上，单一语言的 MahaBERT 模型的性能都优于其他模型。这些资源也可用作马拉地语主题分类数据集或模型，并可在此 https URL 中公开获取。

Apr, 2024

L3Cube-MahaSent-MD: 多域马拉地语情感分析数据集和 Transformer 模型

介绍了 L3Cube-MahaSent-MD 数据集，它是第一个综合的多域情感分析数据集，可用于印度情感领域，包括 4 种不同来源的标注语料（60,000 个样本），涵盖了 3 种不同情感（积极、消极和中性），使用 MahaBERT 模型获得最佳准确性表现。

Jun, 2023

L3Cube-MahaSocialNER：基于社交媒体的马拉地语命名实体识别数据集和 BERT 模型

该研究论文介绍了 L3Cube-MahaSocialNER 数据集，这是第一个也是最大的社交媒体数据集，专门用于马拉地语命名实体识别 (NER)。该数据集包含 18,000 个经过手工标记的句子，涵盖了八个实体类别，解决了社交媒体数据的挑战，包括非标准语言和非正式成语。研究评估了深度学习模型，包括 CNN、LSTM、BiLSTM 和 Transformer 模型，使用 IOB 和非 IOB 标记在单个数据集上取得了效果。结果表明，这些模型能够准确识别马拉地语非正式文本中的命名实体。L3Cube-MahaSocialNER 数据集提供以用户为中心的信息提取，并支持实时应用，为社交媒体平台上的舆情分析、新闻和营销提供了宝贵的资源。我们还展示了常规 NER 模型在社交 NER 测试集上的零样本结果较差，强调了需要更多的社交 NER 数据集。该数据集和模型已公开提供，网址为 https URL。

Dec, 2023

L3Cube-IndicSBERT：使用多语言 BERT 学习跨语言句子表示的简单方法

该论文提出了一种用于转换 vanilla multilingual BERT 模型成多语言句子 BERT 模型的简单有效方法，该方法使用合成语料库聚合并细调 vanilla multilingual BERT 模型的翻译 NLI 或 STS 数据集，展示了多语言 BERT 模型的跨语言学习能力，该方法在 10 种主要的印度语言以及德语和法语这些非印欧语系的语言上均取得了很好的效果，进而实现了首个针对印度语言 Hindi、Marathi、Kannada、Telugu、Malayalam、Tamil、Gujarati、Odia、Bengali 和 Punjabi 的多语言句子表示模型。

Apr, 2023

L3Cube-MahaNLP: 马拉地语自然语言处理数据集、模型和库

L3Cube-MahaNLP 旨在为印度第三流行的马拉地语构建 NLP 资源和库。该论文提出了针对情感分析、实体识别和仇恨言论检测的数据集和变形器模型，并发布了一个单语马拉地语语料库。作者的目标是为马拉地语准备有用的资源，并提供 MahaCorpus、MahaSent、MahaNER 和 MahaHate 数据集及其相应的 MahaBERT 模型。

May, 2022

L3Cube-MahaHate: 基于推特的马拉提语仇恨言论检测数据集与 BERT 模型

该研究介绍了 L3Cube-MahaHate，这是首个主要的马拉地语恶意言论数据集，收集自 Twitter 上的超过 25000 条不同推文，并基于卷积神经网络、LSTM 和 Transformers 构建基线分类模型，结果表明单语言模型胜于多语言模型，其中 MahaBERT 模型在 L3Cube-MahaHate 语料库上表现最佳。

Mar, 2022

L3Cube-HindBERT 和 DevBERT：针对基于天城文的印地语和马拉提语的预训练 BERT Transformer 模型

通过 Hindi BERT 和 Devanagari BERT 模型，我们实现了 Hindi 和 Marathi 文本分类和实体识别任务的重大改进，并在其基础上为其他 Indic 语言发布了单语 BERT 模型。

Nov, 2022

L3Cube-MahaCorpus 和 MahaBERT：马拉提语单语语料库、马拉提 BERT 语言模型和资源

该研究介绍了 L3Cube-MahaCorpus，这是一个从不同互联网来源抓取的马拉提语单语数据集，它包含 24.8M 句子和 289M 个记号。该研究基于这个数据集训练了多个模型，如 MahaBERT、MahaAlBERT、MahaRoBerta 和 MahaFT 等，并且展示了它们在下游任务中的有效性。这项工作是为了为马拉提语的开放资源建立一步。

Feb, 2022

IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

通过引入针对 Indic LLMs 开发的广泛资源套件，包括 22 种语言，总共有 251 亿词汇和 7480 万指令 - 响应对，我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据，建立了一个干净的开源流水线，用于从各种来源收集预训练数据，并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题，并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发，还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分，创建的数据和其他文物都以宽松的许可证发布。

Mar, 2024

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023