为印度语言构建预训练LLM数据集：以印地语为例研究

Jul, 2024

为印度语言构建预训练LLM数据集：以印地语为例研究

Building pre-train LLM Dataset for the INDIC Languages: a case study on Hindi

Shantipriya Parida, Shakshi Panwar, Kusum Lata, Sanskruti Mishra, Sambit Sekhar

TL;DR本文介绍一种大规模预训练数据集的方法，可用于Indic语言Hindi，包括多个方言。该数据集包含12.8亿个Hindi令牌，可用于LLM预训练和研究目的，且可以轻松扩展到其他Indic语言和资源匮乏的语言。

Abstract

large language models (LLMs) demonstrated transformative capabilities in many applications that require automatically generating responses based on human instruction. However, the major challenge for building LLMs, particularly in →

发现论文，激发创造

Indic-Transformers: 基于Transformer模型的印度语言模型分析

该研究通过对Hindi、Bengali和Telugu语言进行广泛实验，评估了基于Transformer架构的语言模型在印度语言上的性能，发现Fine-tuning预训练模型参数比从头训练语言模型更有效，而数据集大小与模型性能之间的严格依赖关系需要被探讨。最终，在文本分类任务中实现了Hindi和Bengali语言的最新技术水平，并提出了处理印度语言建模问题的有效策略。

Nov, 2020

IndicXNLI: 评估印度语言的多语言推理

本文介绍了IndicXNLI，一个NLI数据集，用于11种印度语言的跨语言转移技术的分析，研究了不同的预训练模型、语言、多语言和混合语言输入等因素对预训练模型的行为的影响。

Apr, 2022

利用领域知识指令集构建针对奥利亚语的经过Llama2微调的LLM

本文介绍了我们生成大量Odia指令集以及领域知识数据，并构建针对Odia领域性能优化的Llama2微调模型的方法，这将帮助研究人员构建指令集和LLM，特别是针对Indic语言。我们将为公众提供该模型和指令集，供研究和非商业用途使用。

Dec, 2023

Paramanu: 一系列新型高效的印度生成基础语言模型

Gyan AI Paramanu是一家面向印度语言的全新语言模型系列，由10种印度语言（包括Assamese、Bangla、Hindi、Konkani、Maithili、Marathi、Odia、Sanskrit、Tamil和Telugu）和5种不同脚本（Bangla、Devanagari、Odia、Tamil和Telugu）训练而成，具备高效、小型、快速、强大的特点，并且在Bangla、Hindi和Sanskrit等语言上的性能明显优于其他大规模语言模型。

Jan, 2024

大型语言模型的数据集：综述

该研究论文对大型语言模型数据集进行了综述和分类，包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面；此外还提供了现有数据集资源的综合评估，涵盖8个语言类别和32个领域，包括来自444个数据集的统计信息，共计超过774.5 TB的预训练语料库数据和7亿个实例的其他数据集数据；旨在为研究人员提供整个LLM文本数据集的全貌，并为未来的研究做出贡献。

Feb, 2024

IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

通过引入针对Indic LLMs开发的广泛资源套件，包括22种语言，总共有251亿词汇和7480万指令-响应对，我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据，建立了一个干净的开源流水线，用于从各种来源收集预训练数据，并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题，并通过将这些有毒提示输入到经过校对的LLaMa2模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动Indic LLMs的研究和开发，还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分，创建的数据和其他文物都以宽松的许可证发布。

Mar, 2024

IndicGenBench：用于评估LLMs在印度语言上的生成能力的多语言基准测试

印度是一个拥有14亿人口的语言多样性国家，为了促进多语言大型语言模型的研究和评估，我们发布了IndicGenBench，这是一个覆盖13种脚本、4种语系以及29种印度语言的最大基准。我们对包括GPT-3.5、GPT-4、PaLM-2、mT5、Gemma、BLOOM和LLaMA在内的各种大型语言模型在IndicGenBench上的表现进行了评估，结果显示多数任务中表现最好的是最大的PaLM-2模型，但与英语相比，所有语言都存在显著的性能差距，因此我们需要进一步的研究来开发更具包容性的多语言语言模型。

Apr, 2024

揭示多样性：对印度AI研究领域的综述

该综述论文提供了印度语系大型语言模型（LLM）研究方向的全面概述，包括LLM的发展、现有LLM的微调、语料库的开发、基准测试和评估以及围绕特定技术、工具和应用的出版物。该论文指出了印度语系的挑战，如数据有限、缺乏标准化和语言复杂性，旨在为从事NLP领域研究工作的人员提供有价值的资源，并为这些语言的更准确、高效的LLM应用的发展做出贡献。

Jun, 2024

训练太晚，使用太早？关于低资源孟加拉语LLM的必要性和可行性的研究

当前需要面临的问题是，是否需要专门面向低资源语言的大型语言模型（LLMs）？我们通过比较英语导向的LLMs与细调编码解码模型在孟加拉语下游任务中的表现，发现现有LLMs在生成孟加拉语脚本方面面临着挑战，同时也存在着一些数据集方面的偏见，因此需要开发更高效的孟加拉语导向LLM。

Jun, 2024

INDIC QA BENCHMARK：评估印度语系大语言模型问答能力的多语言基准

为了评估大型语言模型（LLMs）在非英语语言的上下文问题回答能力，我们引入了Indic-QA，这是来自两种语言家族的11种主要印度语言的最大公开上下文问题回答数据集。该数据集包括抽取式和抽象式问题回答任务，其中既包括现有数据集，也包括翻译成印度语言的英语问题回答数据集。此外，我们使用Gemini模型生成了一个合成数据集，用于创建给定段落的问题-回答对，随后对其进行人工验证以确保质量。我们在此基准测试中评估了各种多语言大型语言模型及其指导微调变体，并观察到它们的性能相对低下，特别是对于低资源语言。我们希望该数据集的发布能够促进对大型语言模型在低资源语言上的问题回答能力的进一步研究。

Jul, 2024