ACLMay, 2023

Vārta:Indic 语系大规模标题生成数据集

TL;DRVarta 是一个大规模的多语言数据集,用于生成印度语言的标题。该数据集包含 14 种不同的印度语言(以及英语)的 4180 万篇新闻文章,是目前可用的经过精心筛选的印度语言文章的最大集合。该数据集可以用于预训练强大的语言模型,其表现优于竞争基线,在 NLU 和 NLG 基准测试中均表现出色。