Vārta：Indic 语系大规模标题生成数据集

ACLMay, 2023

Vārta：Indic 语系大规模标题生成数据集

Vārta: A Large-Scale Headline-Generation Dataset for Indic Languages

Rahul Aralikatte, Ziling Cheng, Sumanth Doddapaneni, Jackie Chi Kit Cheung

TL;DRVarta 是一个大规模的多语言数据集，用于生成印度语言的标题。该数据集包含 14 种不同的印度语言（以及英语）的 4180 万篇新闻文章，是目前可用的经过精心筛选的印度语言文章的最大集合。该数据集可以用于预训练强大的语言模型，其表现优于竞争基线，在 NLU 和 NLG 基准测试中均表现出色。

Abstract

We present V\=arta, a large-scale multilingual dataset for headline generation in indic languages. This dataset includes 41.8 million news articl

varta multilingual indic languages news articles language models

发现论文，激发创造

Mukhyansh：面向印度语言的标题生成数据集

该研究提出了 Mukhyansh 数据集，其中包含超过 3.39 百万个印度语言标题 - 文章对，用于解决印度语言标题生成中缺乏高质量标注数据的问题，并通过实证分析证明其表现优于其他模型，跨 8 种印度语言平均 ROUGE-L 得分为 31.43。

Nov, 2023

Potrika: 八个话题和五个属性的孟加拉语原始平衡报纸数据集

该论文介绍了一种名为 Potrika 的大型单标签 Bangla 新闻文章文本数据集，包括八个区分不同类别的分类属性，为 NLP 研究提供了两个不平衡和平衡的数据集，以适应广泛的 NLP 研究，并且是目前最大、最全面的新闻分类数据集。

Oct, 2022

IndicNLG 基准：印度语言中多样化自然语言生成任务的多语言数据集

本文介绍 IndicNLG 基准，一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合，包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务，使用预训练序列到序列模型和多语言基线来评估性能，并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。

Mar, 2022

L3Cube-IndicNews：印度语言的基于新闻的短文本和长文档分类数据集

本研究介绍了 L3Cube-IndicNews，一个以新闻标题和文章为重点的多语种文本分类语料库，针对印度区域语言提供高质量的数据集。我们的工作集中在 10 种重要的 Indic 语言上，包括印地语、孟加拉语、马拉地语、泰卢固语、泰米尔语、古吉拉特语、卡纳达语、奥迪亚语、马拉雅拉姆语和旁遮普语。每个新闻数据集都包括 10 个或更多的新闻类别。L3Cube-IndicNews 提供了 3 个不同的数据集，针对不同的文档长度进行分类，分别是：包含新闻标题和新闻类别的 Short Headlines Classification (SHC) 数据集，包含整个新闻文章和新闻类别的 Long Document Classification (LDC) 数据集，以及包含新闻子文章和新闻类别的 Long Paragraph Classification (LPC) 数据集。我们在所有 3 个数据集上采用一致的标签，进行了深度基于长度的分析。我们使用 4 种不同的模型，包括单语 BERT、多语言 Indic 句子 BERT (IndicSBERT) 和 IndicBERT，对每个 Indic 语言数据集进行了评估。本研究在扩大可用的文本分类数据集方面做出了重要贡献，也为开发面向印度区域语言的主题分类模型提供了可能。由于各语言之间标签的高度重叠，这也是进行跨语言分析的极好资源。数据集和模型已公开共享于此 https URL。

Jan, 2024

L3Cube-MahaNews：马拉地语基于新闻的短文本和长文档分类数据集

我们介绍了 L3Cube-MahaNews，这是一个关注新闻标题和文章的最大的监督式马拉地语文本分类语料库，包含超过 1.05L 条记录，分为 12 个不同类别的多样性范围。我们提供了使用最先进的预训练 BERT 模型在这些数据集上的详细统计数据和基线结果。在各个数据集上，单一语言的 MahaBERT 模型的性能都优于其他模型。这些资源也可用作马拉地语主题分类数据集或模型，并可在此 https URL 中公开获取。

Apr, 2024

来自全球的多语种新闻标题数据集

Babel Briefings 是一个新颖的数据集，包含了 2020 年 8 月至 2021 年 11 月的 470 万条新闻标题，涵盖了 30 种语言和 54 个地点，其中包括所有文章的英文翻译。该数据集适用于自然语言处理和媒体研究，是用于训练或评估语言模型的高质量数据集，同时也提供了一个简单易用的文章集合，用于分析全球新闻报道和文化叙述。通过使用基于 TF-IDF 加权相似度度量的基本过程将文章分组为关于同一事件的聚类，我们展示了该数据集所支持的分析功能，并可视化事件的 “事件签名”，展示随时间推移出现的语言和事件的意外程度。该数据集可在 Kaggle 和 HuggingFace 上获取，并附带 GitHub 代码。

Mar, 2024

IndicVoices：为印度语言构建一个包容性的多语言语音数据集

我们提供了 INDICVOICES 数据集，该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音，涵盖了 145 个印度地区和 22 种语言。通过本文，我们分享了捕捉印度文化、语言和人口多样性的旅程，为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库，以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES，我们构建了 IndicASR，这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。

Mar, 2024

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023

PMIndiaSum: 面向印度的多语和跨语言头条摘要

本文介绍了 PMIndiaSum，一个针对印度语言的多语言和大规模并行的标题摘要语料库，并为单语、跨语言和多语言摘要提供了基准和数据测试。

May, 2023

Naamapadam：用于印度语言的大规模命名实体标注数据

使用 Samanantar 平行语料库中英语句子与印度语句子自动对齐的方式，构建了涵盖 11 种不同印度语言的最大的 NER 数据集 Naamapadam, 包含超过 400k 条句子，涵盖 9 种语言的 3 种标准实体类别（人物、地点和组织），并在其中手动标注了 8 种语言的约 1000 个句子的测试数据。在该数据集上 fine-tuned 的 IndicNER 多语言 mBERT 模型在 8 种语言上的 F1 得分均超过 80，是现有数据集的最佳表现。数据集和模型已在 https URL 上以开源许可证发布。

Dec, 2022