TeenyTinyLlama: 开源的巴西葡萄牙语小型语言模型训练

Jan, 2024

TeenyTinyLlama: 开源的巴西葡萄牙语小型语言模型训练

TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese

Nicholas Kluge Corrêa, Sophia Falk, Shiza Fatimah, Aniket Sen, Nythamar de Oliveira

TL;DR为了在低资源环境下利用，开发了两种紧凑的巴西葡萄牙文本生成模型，发布在GitHub和Hugging Face上供社区使用和进一步开发。

Abstract

large language models (LLMs) have significantly advanced natural language processing, but their progress has yet to be equal across languages. While most LLMs are trained in high-resource languages like English, multili