Nov, 2024
Fineweb-Edu-Ar:支持阿拉伯语小型语言模型的机器翻译语料库
Fineweb-Edu-Ar: Machine-translated Corpus to Support Arabic Small
Language Models
TL;DR本研究解决了多语言大型语言模型(LLMs)对高质量数据的需求,尤其是阿拉伯语等低资源语言的缺乏问题。文中介绍了FineWeb-Edu-Ar,这是一个超过2020亿个标记的公共机器翻译阿拉伯语数据集,旨在为阿拉伯语小型语言模型提供支持。此贡献在于提供了一个规模庞大、可用性强的阿拉伯语数据集,可能显著促进相关模型的发展。