AI4Bharat-IndicNLP 语料库：印度语系单语语料库与词嵌入

Apr, 2020

AI4Bharat-IndicNLP 语料库：印度语系单语语料库与词嵌入

AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages

Anoop Kunchukuttan, Divyanshu Kakwani, Satish Golla, Gokul N.C., Avik Bhattacharyya...

TL;DR介绍 IndicNLP 语料库，包含来自两种语言家族的 10 种印度语言的 27 亿词，分享了基于这些语料库训练的预训练词向量，证明其在多个评估任务中的显著优异表现，希望该语料库的开放能够加速 Indic 自然语言处理领域的研究。

Abstract

We present the indicnlp corpus, a large-scale, general-domain corpus containing 2.7 billion words for 10 →

indicnlp corpus word embeddings indian languages nlp research

发现论文，激发创造

印度之旅》：印度语言预训练单词嵌入

本研究使用现有的方法为 14 种印度语言创建多个单词嵌入，并将这些嵌入置于单个资料库中，包括常规和上下文相关嵌入。使用 MUSE 和 XLM 训练跨语言嵌入，以演示嵌入模型的有效性。

Dec, 2021

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023

iNLTK：印度语自然语言工具包

介绍 iNLTK—— 这是一种开放源代码的 NLP 库，由 13 种印度语言中已经预训练好的语言模型，并提供数据增强、文本相似性、句子嵌入、词嵌入、分词和文本生成的支持。通过在公开数据集上使用 iNLTK 的预训练模型进行文本分类，我们表现优于以前的结果，并且通过在 iNLTK 中使用预训练模型和数据增强，我们可以在使用不到 10% 的训练数据的情况下达到先前最佳表现的 95% 以上。iNLTK 已广泛被社区使用，并在 GitHub 上有 40000 + 下载，600 + 星号和 100 + 叉子。

Sep, 2020

IndicXNLI: 评估印度语言的多语言推理

本文介绍了 IndicXNLI，一个 NLI 数据集，用于 11 种印度语言的跨语言转移技术的分析，研究了不同的预训练模型、语言、多语言和混合语言输入等因素对预训练模型的行为的影响。

Apr, 2022

IndicNLG 基准：印度语言中多样化自然语言生成任务的多语言数据集

本文介绍 IndicNLG 基准，一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合，包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务，使用预训练序列到序列模型和多语言基线来评估性能，并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。

Mar, 2022

PMIndia -- 印度语言平行语料库集合

本研究提供了一个新的公开平行语料库（PMIndia），其中包含 13 种主要印度语言和英语的成对平行句子，每种语言对包含高达 56000 个句子。该语料库的构建及两种不同自动句子对齐方法的评估被描述，同时还介绍了该语料库在 NMT 方面的一些初步结果。

Jan, 2020

IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

通过引入针对 Indic LLMs 开发的广泛资源套件，包括 22 种语言，总共有 251 亿词汇和 7480 万指令 - 响应对，我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据，建立了一个干净的开源流水线，用于从各种来源收集预训练数据，并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题，并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发，还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分，创建的数据和其他文物都以宽松的许可证发布。

Mar, 2024

为印度语言建立一个多语言平行语料收集的努力

通过基于深度学习的方法使用机器翻译和跨语言检索工具，我们提供了涵盖 10 种印度语言的句子对齐平行语料库，包括低资源语言，此外还提供了独立测试语料库用于验证 10 种印度语言的性能。

Jul, 2020

Naamapadam：用于印度语言的大规模命名实体标注数据

使用 Samanantar 平行语料库中英语句子与印度语句子自动对齐的方式，构建了涵盖 11 种不同印度语言的最大的 NER 数据集 Naamapadam, 包含超过 400k 条句子，涵盖 9 种语言的 3 种标准实体类别（人物、地点和组织），并在其中手动标注了 8 种语言的约 1000 个句子的测试数据。在该数据集上 fine-tuned 的 IndicNER 多语言 mBERT 模型在 8 种语言上的 F1 得分均超过 80，是现有数据集的最佳表现。数据集和模型已在 https URL 上以开源许可证发布。

Dec, 2022

机器翻译中印度语言的低资源状态再探讨

本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架，其中包括基线 NMT 系统，检索模块和用于公共网站的对齐模块，通过迭代增加语料库来改进系统。我们的工作还评估了设计选择，例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比，本工作不仅提供了自动化框架，还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。

Aug, 2020