Nov, 2023

Tamil-Llama:基于 Llama 2 的新泰米尔语言模型

TL;DR通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型,本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练,以保证计算可行性和模型的稳健性。此外,我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码,进一步强调我们对开放研究的承诺,促进语言建模领域的进一步创新。