Mukhyansh:面向印度语言的标题生成数据集
本文介绍了 PMIndiaSum,一个针对印度语言的多语言和大规模并行的标题摘要语料库,并为单语、跨语言和多语言摘要提供了基准和数据测试。
May, 2023
Varta 是一个大规模的多语言数据集,用于生成印度语言的标题。该数据集包含 14 种不同的印度语言(以及英语)的 4180 万篇新闻文章,是目前可用的经过精心筛选的印度语言文章的最大集合。该数据集可以用于预训练强大的语言模型,其表现优于竞争基线,在 NLU 和 NLG 基准测试中均表现出色。
May, 2023
本文介绍 IndicNLG 基准,一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合,包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务,使用预训练序列到序列模型和多语言基线来评估性能,并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。
Mar, 2022
本研究采用 IndicBART 和 mT5 模型,研究它们在印度语言数据集上的摘要性能,结果以 ROUGE-1、ROUGE-2、ROUGE-3 和 ROUGE-4 分数为性能指标。
Mar, 2023
提供了第一份人工标注的泰卢固语新闻标题分类数据集(TeClass),包括 78,534 个注释和 26,178 个文章 - 标题对。通过使用 TeClass 数据集微调各种标题生成模型,对高度相关的文章 - 标题对微调的模型生成的头条显示增加了大约 5 个 ROUGE-L 分数点。为了激励未来的研究,标注数据集和标注指南将公开提供。
Apr, 2024
该论文介绍了为 11 种广泛使用的印度语言(阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语)引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集(称为 INDIC-MARCO)以及 11 种不同的单语神经信息检索模型集合(称为 Indic-ColBERT),每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试,我们希望它能加速印度语言神经信息检索的研究。实验证明,与 INDIC-MARCO 基线相比,Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%,在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%,在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。
Dec, 2023
本研究介绍了 L3Cube-IndicNews,一个以新闻标题和文章为重点的多语种文本分类语料库,针对印度区域语言提供高质量的数据集。我们的工作集中在 10 种重要的 Indic 语言上,包括印地语、孟加拉语、马拉地语、泰卢固语、泰米尔语、古吉拉特语、卡纳达语、奥迪亚语、马拉雅拉姆语和旁遮普语。每个新闻数据集都包括 10 个或更多的新闻类别。L3Cube-IndicNews 提供了 3 个不同的数据集,针对不同的文档长度进行分类,分别是:包含新闻标题和新闻类别的 Short Headlines Classification (SHC) 数据集,包含整个新闻文章和新闻类别的 Long Document Classification (LDC) 数据集,以及包含新闻子文章和新闻类别的 Long Paragraph Classification (LPC) 数据集。我们在所有 3 个数据集上采用一致的标签,进行了深度基于长度的分析。我们使用 4 种不同的模型,包括单语 BERT、多语言 Indic 句子 BERT (IndicSBERT) 和 IndicBERT,对每个 Indic 语言数据集进行了评估。本研究在扩大可用的文本分类数据集方面做出了重要贡献,也为开发面向印度区域语言的主题分类模型提供了可能。由于各语言之间标签的高度重叠,这也是进行跨语言分析的极好资源。数据集和模型已公开共享于此 https URL。
Jan, 2024
该研究关注于为印地语和马拉地语开发一个问题回答数据集,通过将 SQuAD 2.0 数据集翻译成这两种语言,以解决数据稀缺的挑战,并发布了最大规模的问题回答数据集,同时提供了在这两种语言中表现最佳的模型,从而促进了进一步的研究。
Aug, 2023
我们介绍了 L3Cube-MahaNews,这是一个关注新闻标题和文章的最大的监督式马拉地语文本分类语料库,包含超过 1.05L 条记录,分为 12 个不同类别的多样性范围。我们提供了使用最先进的预训练 BERT 模型在这些数据集上的详细统计数据和基线结果。在各个数据集上,单一语言的 MahaBERT 模型的性能都优于其他模型。这些资源也可用作马拉地语主题分类数据集或模型,并可在此 https URL 中公开获取。
Apr, 2024
通过引入针对 Indic LLMs 开发的广泛资源套件,包括 22 种语言,总共有 251 亿词汇和 7480 万指令 - 响应对,我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据,并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题,并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发,还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分,创建的数据和其他文物都以宽松的许可证发布。
Mar, 2024