Aug, 2024

FuxiTranyu:一种使用均衡数据训练的多语言大型语言模型

TL;DR本研究针对大型语言模型在高资源和低资源语言之间的性能差异问题,提出了FuxiTranyu,一个开放源代码的多语言大型语言模型,旨在实现均衡的多语言能力。研究的核心贡献是使用了6000亿个标记的均衡多语言数据集进行训练,实验结果显示,FuxiTranyu在多语言基准测试中表现出色,有望推动多语言大模型的进一步研究。