Jul, 2024

为印度语言构建预训练LLM数据集:以印地语为例研究

TL;DR本文介绍一种大规模预训练数据集的方法,可用于Indic语言Hindi,包括多个方言。该数据集包含12.8亿个Hindi令牌,可用于LLM预训练和研究目的,且可以轻松扩展到其他Indic语言和资源匮乏的语言。