Jan, 2024

L3Cube-IndicNews:印度语言的基于新闻的短文本和长文档分类数据集

TL;DR本研究介绍了 L3Cube-IndicNews,一个以新闻标题和文章为重点的多语种文本分类语料库,针对印度区域语言提供高质量的数据集。我们的工作集中在 10 种重要的 Indic 语言上,包括印地语、孟加拉语、马拉地语、泰卢固语、泰米尔语、古吉拉特语、卡纳达语、奥迪亚语、马拉雅拉姆语和旁遮普语。每个新闻数据集都包括 10 个或更多的新闻类别。L3Cube-IndicNews 提供了 3 个不同的数据集,针对不同的文档长度进行分类,分别是:包含新闻标题和新闻类别的 Short Headlines Classification (SHC) 数据集,包含整个新闻文章和新闻类别的 Long Document Classification (LDC) 数据集,以及包含新闻子文章和新闻类别的 Long Paragraph Classification (LPC) 数据集。我们在所有 3 个数据集上采用一致的标签,进行了深度基于长度的分析。我们使用 4 种不同的模型,包括单语 BERT、多语言 Indic 句子 BERT (IndicSBERT) 和 IndicBERT,对每个 Indic 语言数据集进行了评估。本研究在扩大可用的文本分类数据集方面做出了重要贡献,也为开发面向印度区域语言的主题分类模型提供了可能。由于各语言之间标签的高度重叠,这也是进行跨语言分析的极好资源。数据集和模型已公开共享于此 https URL。