IndicIRSuite：印度语言的多语种数据集和神经信息模型

Dec, 2023

IndicIRSuite：印度语言的多语种数据集和神经信息模型

IndicIRSuite: Multilingual Dataset and Neural Information Models for Indian Languages

Saiful Haq, Ashutosh Sharma, Pushpak Bhattacharyya

TL;DR该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Abstract

In this paper, we introduce neural information retrieval resources for 11 widely spoken indian languages (Assamese, Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Oriya, Punjabi, Tamil, and Telugu) from t

neural information retrieval indian languages indic-marco indic-colbert neural ir for indian languages

发现论文，激发创造

IndicXNLI: 评估印度语言的多语言推理

本文介绍了 IndicXNLI，一个 NLI 数据集，用于 11 种印度语言的跨语言转移技术的分析，研究了不同的预训练模型、语言、多语言和混合语言输入等因素对预训练模型的行为的影响。

Apr, 2022

IndicNLG 基准：印度语言中多样化自然语言生成任务的多语言数据集

本文介绍 IndicNLG 基准，一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合，包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务，使用预训练序列到序列模型和多语言基线来评估性能，并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。

Mar, 2022

IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

通过引入针对 Indic LLMs 开发的广泛资源套件，包括 22 种语言，总共有 251 亿词汇和 7480 万指令 - 响应对，我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据，建立了一个干净的开源流水线，用于从各种来源收集预训练数据，并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题，并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发，还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分，创建的数据和其他文物都以宽松的许可证发布。

Mar, 2024

IndicTrans2：适用于所有 22 个印度预定语言的高质量可访问机器翻译模型

该研究旨在通过整合并创建特定于印度的并行语料库和基准测试数据，训练出支持所有 22 种印度语言的机器翻译模型，为印度的语言多样性提供广泛且易于访问的机器翻译系统，该研究创造性地提出了四个关键领域的改进，并发布了 BPCC 和 IndicTrans2 等数据资源和模型。

May, 2023

使用多语言变压器模型对印度语言进行摘要

本研究采用 IndicBART 和 mT5 模型，研究它们在印度语言数据集上的摘要性能，结果以 ROUGE-1、ROUGE-2、ROUGE-3 和 ROUGE-4 分数为性能指标。

Mar, 2023

为印度语言建立一个多语言平行语料收集的努力

通过基于深度学习的方法使用机器翻译和跨语言检索工具，我们提供了涵盖 10 种印度语言的句子对齐平行语料库，包括低资源语言，此外还提供了独立测试语料库用于验证 10 种印度语言的性能。

Jul, 2020

AI4Bharat-IndicNLP 语料库：印度语系单语语料库与词嵌入

介绍 IndicNLP 语料库，包含来自两种语言家族的 10 种印度语言的 27 亿词，分享了基于这些语料库训练的预训练词向量，证明其在多个评估任务中的显著优异表现，希望该语料库的开放能够加速 Indic 自然语言处理领域的研究。

Apr, 2020

IndicVoices：为印度语言构建一个包容性的多语言语音数据集

我们提供了 INDICVOICES 数据集，该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音，涵盖了 145 个印度地区和 22 种语言。通过本文，我们分享了捕捉印度文化、语言和人口多样性的旅程，为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库，以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES，我们构建了 IndicASR，这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。

Mar, 2024

IndicXTREME：用于评估印度语言的多任务基准

本文介绍了 IndicXTREME，一个由 9 个不同任务组成的基准测试，包括来自印度次大陆、属于 4 个不同语系的 18 种语言。我们更新和扩展了 IndicCorp，提供了 IndicBERT v2，并证明了它优于现有的多语言语言模型，如 XLM-R 和 MuRIL。

Dec, 2022

机器翻译中印度语言的低资源状态再探讨

本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架，其中包括基线 NMT 系统，检索模块和用于公共网站的对齐模块，通过迭代增加语料库来改进系统。我们的工作还评估了设计选择，例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比，本工作不仅提供了自动化框架，还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。

Aug, 2020