IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

Mar, 2024

IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages

Mohammed Safi Ur Rahman Khan, Priyam Mehta, Ananth Sankar, Umashankar Kumaravelan, Sumanth Doddapaneni...

TL;DR通过引入针对 Indic LLMs 开发的广泛资源套件，包括 22 种语言，总共有 251 亿词汇和 7480 万指令 - 响应对，我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据，建立了一个干净的开源流水线，用于从各种来源收集预训练数据，并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题，并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发，还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分，创建的数据和其他文物都以宽松的许可证发布。

Abstract

Despite the considerable advancements in English llms, the progress in building comparable models for other languages has been hindered due to the scarcity of tailored resources. Our work aims to bridge this divi

llms indic languages resources data quality pipeline

发现论文，激发创造

IndicXNLI: 评估印度语言的多语言推理

本文介绍了 IndicXNLI，一个 NLI 数据集，用于 11 种印度语言的跨语言转移技术的分析，研究了不同的预训练模型、语言、多语言和混合语言输入等因素对预训练模型的行为的影响。

Apr, 2022

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023

揭示多样性：对印度 AI 研究领域的综述

该综述论文提供了印度语系大型语言模型（LLM）研究方向的全面概述，包括 LLM 的发展、现有 LLM 的微调、语料库的开发、基准测试和评估以及围绕特定技术、工具和应用的出版物。该论文指出了印度语系的挑战，如数据有限、缺乏标准化和语言复杂性，旨在为从事 NLP 领域研究工作的人员提供有价值的资源，并为这些语言的更准确、高效的 LLM 应用的发展做出贡献。

Jun, 2024

增强 Amharic-LLaMA：整合任务特定和生成型数据集

通过整合任务特定数据集和生成数据集，我们改进了 LLaMA-2-Amharic 模型，提高了其对阿姆哈拉语的语言模型性能，并公开了我们的数据集创建流程、指导性数据集、训练模型和评估结果，以促进针对特定语言的研究。

Feb, 2024

评估涉及英语和印度语的大型语言模型的翻译能力

通过使用机器翻译作为涉及英语和 22 种印度语言的任务，我们探索了大型语言模型的多语言能力，研究了原始模型的翻译能力和上下文学习能力，通过参数高效的微调方法和完全微调，我们确定了最佳性能的大型语言模型。结果表明，大型语言模型在包括目前在 LLMs 中代表较少的语言的机器翻译能力方面取得了显著的进展。

Nov, 2023

IndicMT Eval：用于评估印度语机器翻译度量的数据集

本文旨在创建一个 MQM 数据集，以系统地评估 7 个机器翻译系统中 5 种印度语言的翻译质量，并探讨自动化评估指标和人工评分之间的相关性。结果表明预先训练的指标 COMET 与人工评分相关性最高，但这些指标并未恰当地捕捉印度语言中的流畅性错误，因此需要开发注重印度语言的度量指标。

Dec, 2022

IndicTrans2：适用于所有 22 个印度预定语言的高质量可访问机器翻译模型

该研究旨在通过整合并创建特定于印度的并行语料库和基准测试数据，训练出支持所有 22 种印度语言的机器翻译模型，为印度的语言多样性提供广泛且易于访问的机器翻译系统，该研究创造性地提出了四个关键领域的改进，并发布了 BPCC 和 IndicTrans2 等数据资源和模型。

May, 2023

IndicNLG 基准：印度语言中多样化自然语言生成任务的多语言数据集

本文介绍 IndicNLG 基准，一个用于评估 11 种 Indic 语言的自然语言生成的数据集集合，包括人物传记生成、新闻标题生成、句子摘要、改写生成和问题生成等 5 个不同的任务，使用预训练序列到序列模型和多语言基线来评估性能，并表明多语言特定预训练模型的强大性能和我们数据集训练的模型对其他相关 NLG 任务的实用性。

Mar, 2022

跨语言适应多语言预训练语言模型的三重方法

研究了三种低资源跨语言方法，并在语境学习和微调下发现通过添加额外的主导语言监督信号，对 LLM 的跨语言转移有所改进；同时，发现将目标语言适应词汇重排可能对 ICL 有益，但随着微调而减弱；最后，继续以一种低资源语言进行预训练可提高其他相关低资源语言的模型性能。

Jun, 2024

IndiBias: 用于测量印度语境下语言模型社会偏见的基准数据集

IndiBias 是一个专门为评估印度社会偏见而设计的全面基准数据集，它将现有的 CrowS-Pairs 数据集过滤和翻译成印地语，并利用 ChatGPT 和 InstructGPT 等大型语言模型增加了印度独特的社会偏见和刻板印象维度，同时还针对交叉偏见构建了相应的资源。该数据集包含 800 个过滤后的句子和用于不同人口统计的偏见测量元组，提供英语和印地语两种语言的版本，规模可与现有的基准数据集相媲美。通过使用 IndiBias，我们比较了十种不同的语言模型在多个偏见测量指标上的表现，发现语言模型在大多数交叉群体中表现出更多偏见。

Mar, 2024