Mar, 2024

Vi-Mistral-X: 基于高级连续预训练的越南语语言模型构建

TL;DR本论文介绍了一种针对越南语设计的创新型大型语言模型vi-mistral-x,利用连续预训练的独特方法,通过 Mistral 架构结合了分组查询注意力和滑动窗口注意力技术,大幅提升了对越南语的理解和生成能力,在文本分类、问题回答和文本生成等关键领域明显优于现有的越南语大型语言模型,特别在越南多任务语言理解基准测试中表现突出,提升了针对语言的大型语言模型的发展,并鼓励为较少被代表的语言创建更多大型语言模型。